Python使用Chrome插件实现爬虫过程图解

作者：Johnthegreat 时间：2023-08-01 02:02:29　

做电商时，消费者对商品的评论是很重要的，但是不会写代码怎么办？这里有个Chrome插件可以做到简单的数据爬取，一句代码都不用写。下面给大家展示部分抓取后的数据：

可以看到，抓取的地址，评论人，评论内容，时间，产品颜色都已经抓取下来了。那么，爬取这些数据需要哪些工具呢？就两个：

1. Chrome浏览器；

2. 插件：Web Scraper

插件下载地址：https://chromecj.com/productivity/2018-05/942.html

最后，如果你想自己动手抓取一下，这里是这次抓取的详细过程：

1. 首先，复制如下的代码，对，你不需要写代码，但是为了便于上手，复制代码还是需要的，后续可以自己定制和选择，不需要写代码。

{
"_id": "jdreview",
"startUrl": [
"https://item.jd.com/100000680365.html#comment"
],
"selectors": [
{
"id": "user",
"type": "SelectorText",
"selector": "div.user-info",
"parentSelectors": [
"main"
],
"multiple": false,
"regex": "",
"delay": 0
},
{
"id": "comments",
"type": "SelectorText",
"selector": "div.comment-column > p.comment-con",
"parentSelectors": [
"main"
],
"multiple": false,
"regex": "",
"delay": 0
},
{
"id": "time",
"type": "SelectorText",
"selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
"parentSelectors": [
"main"
],
"multiple": false,
"regex": "",
"delay": "0"
},
{
"id": "color",
"type": "SelectorText",
"selector": "div.order-info span:nth-of-type(1)",
"parentSelectors": [
"main"
],
"multiple": false,
"regex": "",
"delay": 0
},
{
"id": "main",
"type": "SelectorElementClick",
"selector": "div.comment-item",
"parentSelectors": [
"_root"
],
"multiple": true,
"delay": "10000",
"clickElementSelector": "div.com-table-footer a.ui-pager-next",
"clickType": "clickMore",
"discardInitialElements": false,
"clickElementUniquenessType": "uniqueHTMLText"
}
]
}

2. 然后打开chrome浏览器，在任意页面同时按下Ctrl+Shift+i，在弹出的窗口中找到Web Scraper，如下：

3. 如下

4. 如图，粘贴上述的代码：

5. 如图，如果需要定制网址，注意替代一下，网址后面的#comment是直达评论的链接，不能去掉：

6. 如图：

7. 如图：

8. 如图，点击Scrape后，会自动运行打开需要抓取得页面，不要关闭窗口，静静等待完成，完成后右下方会提示完成，一般1000条以内的评论不会有问题：

9. 最后，点击下载到电脑，数据保存好。

使用这个工具的好处是：

1. 不需要编程；

2. 京东的评论基本可以通用此脚本，修改对应的url即可；

3. 如果需要爬取的评论不到1000条，这个工具会非常称手，所有的数据完全自动下载；

使用的注意点：

1. 抓取过一次的数据会有记录，立刻再次抓取将不会保存，建议关闭浏览器重新打开后再试；

2. 抓取数量:1000条以内没有问题，可能是京东按照IP直接阻止了更多的爬取；

如果你的英语水平不错，可以尝试阅读官方文档，进一步学习和定制自己的爬虫。

官方教程：https://www.webscraper.io/documentation

来源：https://www.cnblogs.com/johnthegreat/p/12757331.html

标签：Python,Chrome,插件,爬虫

投稿

Python使用Chrome插件实现爬虫过程图解

猜你喜欢

SQL Server中的XML数据类型详解

Python可视化神器pyecharts绘制雷达图

python3批量删除豆瓣分组下的好友的实现代码

python自动翻译实现方法

php5.4以下版本json不支持不转义内容中文的解决方法

基于Python中的turtle绘画星星和星空

Linux系统（CentOS）下python2.7.10安装

pyqt5 实现下拉菜单 + 打开文件的示例代码

浅谈python 中的 type(), dtype(), astype()的区别

关于Mysql5.7及8.0版本索引失效情况汇总

Golang中Set类型的实现方法示例详解

javascript中的throttle和debounce浅析

Django实现微信小程序的登录验证功能并维护登录态

用 JavaScript 解数学题

Python3中正则模块re.compile、re.match及re.search函数用法详解

详解Python中常用的图片处理函数的使用

php基于curl主动推送最新内容给百度收录的方法

简单了解python的内存管理机制

关于长度单位pt、px、dpi的误解

mysql中GROUP_CONCAT的使用方法实例分析

Python使用Chrome插件实现爬虫过程图解

猜你喜欢

SQL Server中的XML数据类型详解

Python可视化神器pyecharts绘制雷达图

python3批量删除豆瓣分组下的好友的实现代码

python自动翻译实现方法

php5.4以下版本json不支持不转义内容中文的解决方法

基于Python中的turtle绘画星星和星空

Linux系统（CentOS）下python2.7.10安装

pyqt5 实现 下拉菜单 + 打开文件的示例代码

浅谈python 中的 type(), dtype(), astype()的区别

关于Mysql5.7及8.0版本索引失效情况汇总

Golang中Set类型的实现方法示例详解

javascript中的throttle和debounce浅析

Django实现微信小程序的登录验证功能并维护登录态

用 JavaScript 解数学题

Python3中正则模块re.compile、re.match及re.search函数用法详解

详解Python中常用的图片处理函数的使用

php基于curl主动推送最新内容给百度收录的方法

简单了解python的内存管理机制

关于长度单位pt、px、dpi的误解

mysql中GROUP_CONCAT的使用方法实例分析

pyqt5 实现下拉菜单 + 打开文件的示例代码