Python使用Chrome插件实现爬虫过程图解

作者:Johnthegreat 时间:2023-08-01 02:02:29 

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。


{
 "_id": "jdreview",
 "startUrl": [
   "https://item.jd.com/100000680365.html#comment"
 ],
 "selectors": [
   {
     "id": "user",
     "type": "SelectorText",
     "selector": "div.user-info",
     "parentSelectors": [
       "main"
     ],
     "multiple": false,
     "regex": "",
     "delay": 0
   },
   {
     "id": "comments",
     "type": "SelectorText",
     "selector": "div.comment-column > p.comment-con",
     "parentSelectors": [
       "main"
     ],
     "multiple": false,
     "regex": "",
     "delay": 0
   },
   {
     "id": "time",
     "type": "SelectorText",
     "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
     "parentSelectors": [
       "main"
     ],
     "multiple": false,
     "regex": "",
     "delay": "0"
   },
   {
     "id": "color",
     "type": "SelectorText",
     "selector": "div.order-info span:nth-of-type(1)",
     "parentSelectors": [
       "main"
     ],
     "multiple": false,
     "regex": "",
     "delay": 0
   },
   {
     "id": "main",
     "type": "SelectorElementClick",
     "selector": "div.comment-item",
     "parentSelectors": [
       "_root"
     ],
     "multiple": true,
     "delay": "10000",
     "clickElementSelector": "div.com-table-footer a.ui-pager-next",
     "clickType": "clickMore",
     "discardInitialElements": false,
     "clickElementUniquenessType": "uniqueHTMLText"
   }
 ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

来源:https://www.cnblogs.com/johnthegreat/p/12757331.html

标签:Python,Chrome,插件,爬虫
0
投稿

猜你喜欢

  • SQL Server中的XML数据类型详解

    2024-01-15 20:56:44
  • Python可视化神器pyecharts绘制雷达图

    2021-09-30 14:50:48
  • python3批量删除豆瓣分组下的好友的实现代码

    2022-02-14 22:27:13
  • python自动翻译实现方法

    2022-01-01 08:03:31
  • php5.4以下版本json不支持不转义内容中文的解决方法

    2023-07-02 17:10:45
  • 基于Python中的turtle绘画星星和星空

    2022-10-31 08:57:41
  • Linux系统(CentOS)下python2.7.10安装

    2021-04-02 19:27:50
  • pyqt5 实现 下拉菜单 + 打开文件的示例代码

    2023-12-17 09:20:28
  • 浅谈python 中的 type(), dtype(), astype()的区别

    2022-09-13 22:40:39
  • 关于Mysql5.7及8.0版本索引失效情况汇总

    2024-01-21 08:35:35
  • Golang中Set类型的实现方法示例详解

    2024-02-13 23:45:11
  • javascript中的throttle和debounce浅析

    2024-05-08 10:10:27
  • Django实现微信小程序的登录验证功能并维护登录态

    2022-03-14 22:56:48
  • 用 JavaScript 解数学题

    2010-07-09 13:38:00
  • Python3中正则模块re.compile、re.match及re.search函数用法详解

    2023-04-22 10:03:28
  • 详解Python中常用的图片处理函数的使用

    2021-05-05 18:30:32
  • php基于curl主动推送最新内容给百度收录的方法

    2023-11-22 04:46:44
  • 简单了解python的内存管理机制

    2021-10-03 18:13:11
  • 关于长度单位pt、px、dpi的误解

    2008-06-01 13:30:00
  • mysql中GROUP_CONCAT的使用方法实例分析

    2024-01-28 01:01:26
  • asp之家 网络编程 m.aspxhome.com