Pycharm安装scrapy及初始化爬虫项目的完整步骤
作者:_码农耕地人 时间:2023-04-03 10:49:43
一)安装scrapy:
1、打开cmd命令窗口,输入:pip install Scrapy。
2、安装成功之后会显示下面字符,表示未将scrapy设置到环境变量。
3、配置环境变量:右键我的电脑-->属性-->高级设置--->环境变量---->系统变量中的Path--->编辑--->添加--->将上文中黄色的路径添加到环境变量即可。
4、scrapy安装完毕。
二)创建一个scrapy爬虫项目:
1、创建一个普通的Pycharm项目,然后找到下面的terminal
2、输入命令scrapy startproject 模块名称(可以自己随便起,我以名为mine为例),成功之后你会发现自己的项目中多了一个mine的包文件。
3、上述操作成功后终端会显示下图文字:此时我们输入cd那条命令。进入目标文件。
4、这时就可以创建爬虫目标文件啦,
输入scrapy genspider 爬取名 网站域名
1、爬取名是自己随便起的,比如我要爬百度那么我就可以起名为baidu
2、网站域名就是去掉 https:www. 剩下的部分,以博客园的为例:
网址为:https://www.cnblogs.com/
域名为 cnblogs.com
2和3操作截图:
5、此时我们会在目录里看见一个新的py文件:里自动生成如下代码:
三)开启pycharm对scrapy框架的调试功能:
由于pycharm没有创建scrapy框架的模块,所以我们想调试scrapy程序时要自己写一个小脚本来开启pycharm对scrapy的调试功能。
1、在与mine包同级条件下创建一个main.py文件:
2、mine文件将一下代码赋值进去:
import os
import sys
from scrapy.cmdline import execute
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "cnblog"]) # 第三个参数为自己创建的那个爬取的名称
这样就大功告成啦!
来源:https://blog.csdn.net/weixin_60414376/article/details/124023917
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
给ubuntu18安装python3.7的详细教程
![](https://img.aspxhome.com/file/2023/9/92399_0s.png)
Python操作MySQL数据库的两种方式实例分析【pymysql和pandas】
![](https://img.aspxhome.com/file/2023/8/78688_0s.jpg)
vue实现购物车功能(商品分类)
JavaScript 中的 this 绑定规则详解
![](https://img.aspxhome.com/file/2023/8/132648_0s.jpg)
tensorflow 大于某个值为1,小于为0的实例
浅析Python 实现一个自动化翻译和替换的工具
![](https://img.aspxhome.com/file/2023/0/90340_0s.jpg)
JavaScript如何动态监听DOM元素高度详解
![](https://img.aspxhome.com/file/2023/8/123448_0s.png)
怎么解决pycharm license Acti的方法
![](https://img.aspxhome.com/file/2023/8/123578_0s.jpg)
js实现一个日期联动下拉菜单
python3.8.3安装教程及环境配置的详细教程(64-bit)
![](https://img.aspxhome.com/file/2023/4/133494_0s.jpg)
卸载安装Node.js与npm过程详解
打造通用ASP.NET数据分页控件
![](https://img.aspxhome.com/file/UploadPic/up/2007081814254184.jpg)
python实现csdn全部博文下载并转PDF
![](https://img.aspxhome.com/file/2023/3/80573_0s.gif)
混淆矩阵Confusion Matrix概念分析翻译
![](https://img.aspxhome.com/file/2023/7/107167_0s.png)
python去除字符串中的空格、特殊字符和指定字符的三种方法
![](https://img.aspxhome.com/file/2023/4/106984_0s.jpg)
用pandas中的DataFrame时选取行或列的方法
利用Go语言实现Raft日志同步
JavaScript获取一个范围内日期的方法
python2爬取百度贴吧指定关键字和图片代码实例
使用python解析json字段的3种方式实例
![](https://img.aspxhome.com/file/2023/8/131318_0s.jpg)