Python使用scrapy抓取网站sitemap信息的方法
作者:pythoner 时间:2023-04-02 20:03:18
本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下:
import re
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.utils.response import body_or_str
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
class SitemapSpider(BaseSpider):
name = "SitemapSpider"
start_urls = ["http://www.domain.com/sitemap.xml"]
def parse(self, response):
nodename = 'loc'
text = body_or_str(response)
r = re.compile(r"(<%s[\s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)
for match in r.finditer(text):
url = match.group(2)
yield Request(url, callback=self.parse_page)
def parse_page(self, response):
hxs = HtmlXPathSelector(response)
#Mock Item
blah = Item()
#Do all your page parsing and selecting the elemtents you want
blash.divText = hxs.select('//div/text()').extract()[0]
yield blah
希望本文所述对大家的Python程序设计有所帮助。
标签:Python,scrapy,抓取
0
投稿
猜你喜欢
python selenium 获取标签的属性值、内容、状态方法
2021-03-12 23:02:46
python学习之可迭代对象、迭代器、生成器
2023-08-22 03:21:46
Python 实现自动化Excel报表的步骤
2022-12-01 10:49:29
javascript面向对象技术基础(二)
2010-02-07 13:09:00
设置mysql最大连接数的方法
2010-12-03 16:00:00
Python判断文件或文件夹是否存在的三种方法
2021-04-25 21:53:06
ASP模拟MVC模型的编程方式
2008-10-15 14:51:00
在ASP中使用SQL语句之3:LIKE、NOT LIKE和 BETWEEN
2007-08-11 12:30:00
Python用摘要算法生成token及检验token的示例代码
2022-05-30 10:22:10
关于Math.PI、前自增和后自增
2009-05-25 12:38:00
python装饰器简介---这一篇也许就够了(推荐)
2021-02-21 23:09:20
对python操作kafka写入json数据的简单demo分享
2023-05-04 21:24:08
MySQL数据库查询性能优化策略
2024-01-14 17:53:41
mysql出现10061错误解决办法
2010-07-04 13:36:00
2008农历新年各大网站Logo秀
2008-02-11 16:33:00
python读取并显示图片的三种方法(opencv、matplotlib、PIL库)
2023-03-24 19:43:02
解决goland新建项目文件名为红色的问题
2024-04-25 14:58:49
对MySQL几种联合查询的通俗解释
2024-01-18 17:44:40
Django中自定义查询对象的具体使用
2021-05-26 03:11:18
Python基于Twilio及腾讯云实现国际国内短信接口
2021-05-28 22:38:51