Python大批量搜索引擎图像爬虫工具详解
作者:aabbcccddd01 时间:2021-09-15 15:30:02
python图像爬虫包
最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了😭,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:
pip install icrawler
下面附上我爬虫的代码:
from icrawler.builtin import BaiduImageCrawler
from icrawler.builtin import BingImageCrawler
from icrawler.builtin import GoogleImageCrawler
#需要爬虫的关键字
list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人']
for word in list_word:
#bing爬虫
#保存路径
bing_storage = {'root_dir': 'bing\\'+word}
#从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径
bing_crawler = BingImageCrawler(parser_threads=2,
downloader_threads=4,
storage=bing_storage)
#开始爬虫,关键字+图片数量
bing_crawler.crawl(keyword=word,
max_num=2000)
#百度爬虫
# baidu_storage = {'root_dir': 'baidu\\' + word}
# baidu_crawler = BaiduImageCrawler(parser_threads=2,
# downloader_threads=4,
# storage=baidu_storage)
# baidu_crawler.crawl(keyword=word,
# max_num=2000)
# google爬虫
# google_storage = {'root_dir': '‘google\\' + word}
# google_crawler = GoogleImageCrawler(parser_threads=4,
# downloader_threads=4,
# storage=google_storage)
# google_crawler.crawl(keyword=word,
# max_num=2000)
这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。
来源:https://blog.csdn.net/aabbcccddd01/article/details/109647287
标签:Python,搜索引擎,图像爬虫
0
投稿
猜你喜欢
关于PowerDesigner初体验的使用介绍
2024-01-13 04:15:25
Python学习之sys模块使用教程详解
2021-03-31 01:38:50
简单的python后台管理程序
2022-01-07 03:49:30
PL/SQL中编写Oracle数据库分页的存储过程
2024-01-16 08:50:24
python实现飞船大战
2022-09-19 02:17:26
python模块之paramiko实例代码
2022-08-08 08:34:51
kali最新国内更新源sources
2022-03-25 02:53:37
Python中.py程序在CMD控制台以指定虚拟环境运行
2021-08-31 14:49:55
pytorch 液态算法实现瘦脸效果
2021-12-05 19:28:17
Django 如何使用日期时间选择器规范用户的时间输入示例代码详解
2023-06-18 23:56:20
vue2.0父子组件间通信的实现方法
2024-04-28 09:20:16
python基于event实现线程间通信控制
2022-04-30 07:10:51
SQL Server数据库简体繁体数据混用的问题
2008-12-05 16:07:00
Python函数关键字参数及用法详解
2023-08-13 00:34:06
CSS网页布局编码小技巧整理
2009-12-30 16:50:00
新手入门学习python Numpy基础操作
2023-10-08 07:46:27
做购物车系统时利用到得几个sqlserver 存储过程
2024-01-13 10:05:48
在SQL Server 2005所有表中搜索某个指定列的方法
2024-01-21 22:50:25
Trie树_字典树(字符串排序)简介及实现
2022-02-22 23:18:23
如何在Python3中使用telnetlib模块连接网络设备
2022-03-11 12:57:33