python定向爬取淘宝商品价格

作者:learn_is_happy 时间:2023-10-03 23:33:12 

python爬虫学习之定向爬取淘宝商品价格,供大家参考,具体内容如下


import requests
import re

def getHTMLText(url):
 try:
   r = requests.get(url, timeout=30)
   r.raise_for_status() #如果发送了一个失败请求(非200响应),#我们可以通过 Response.raise_for_status() 来抛出异常:
   r.encoding= r.apparent_encoding
   return r.text
 except:
   return ""

def parsePage(ilt,html):
 try:
   plt = re.findall(r'\"view_price\"\:\"[\d\.]*?\"',html) #正则表达式来匹配 "view_price":"\d\."类型的字符串
   tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
#正则表达式来匹配 "raw_title":".*?"类型的字符串,.*?是任意字符的最小匹配
   for i in range(len(plt)):
     price = eval(plt[i].split(':')[1])
     title = eval(tlt[i].split(':')[1])
     ilt.append([price,title])
 except:
   print ("")

def PrintGoodsList(ilt):
 tplt = "{:4}\t{:8}\t{:16}"
 print (tplt.format("序号","价格","商品名称"))
 count = 0
 for g in ilt:
   count = count + 1
   print (tplt.format(count,g[0],g[1]))
def main():
 goods = '书包'
 depth = 2
 start_url = 'https://s.taobao.com/search?q=' + goods
 infoList=[]
 for i in range(depth):
   try:
     url = start_url + '&s=' + str(44*i)
     html= getHTMLText(url)
     parsePage(infoList,html)
   except:
     continue

PrintGoodsList(infoList)

main()

来源:http://blog.csdn.net/learn_is_happy/article/details/78773956

标签:python,爬取
0
投稿

猜你喜欢

  • 教你如何在Pycharm中导入requests模块

    2023-05-03 13:10:14
  • python按比例随机切分数据的实现

    2021-05-28 05:17:34
  • 几个javascript特效代码

    2010-04-23 20:39:00
  • 详解利用django中间件django.middleware.csrf.CsrfViewMiddleware防止csrf攻击

    2023-03-16 14:33:51
  • Python Socket传输文件示例

    2023-10-18 17:19:00
  • Python数据可视化:顶级绘图库plotly详解

    2021-04-09 19:37:13
  • 用python 绘制茎叶图和复合饼图

    2023-08-04 10:34:54
  • python处理json文件的四个常用函数

    2023-01-17 21:26:58
  • python matplotlib实现将图例放在图外

    2021-11-19 06:55:45
  • Python中模块string.py详解

    2021-05-20 05:25:03
  • python 获取页面表格数据存放到csv中的方法

    2021-01-28 02:13:48
  • 实例详解JavaScript中setTimeout函数的执行顺序

    2024-04-22 13:25:09
  • 用Python做一个哔站小姐姐词云跳舞视频

    2022-09-17 12:32:30
  • python导入csv文件出现SyntaxError问题分析

    2023-12-12 04:29:57
  • Python HTML解析模块HTMLParser用法分析【爬虫工具】

    2023-10-04 02:07:09
  • javascript在事件监听方面的兼容性小结

    2024-04-29 13:45:19
  • Python利用PyQt5制作一个获取网络实时数据NBA数据播报GUI功能

    2021-09-08 18:07:26
  • python 顺时针打印矩阵的超简洁代码

    2023-03-25 14:03:52
  • Python2与Python3关于字符串编码处理的差别总结

    2022-05-21 19:09:51
  • Python使用for实现无限循环的多种方式汇总

    2023-04-30 15:15:11
  • asp之家 网络编程 m.aspxhome.com