Python使用scrapy抓取网站sitemap信息的方法

作者:pythoner 时间:2023-04-02 20:03:18 

本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下:


import re
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.utils.response import body_or_str
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
class SitemapSpider(BaseSpider):
name = "SitemapSpider"
start_urls = ["http://www.domain.com/sitemap.xml"]
def parse(self, response):
 nodename = 'loc'
 text = body_or_str(response)
 r = re.compile(r"(<%s[\s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)
 for match in r.finditer(text):
  url = match.group(2)
  yield Request(url, callback=self.parse_page)
def parse_page(self, response):
   hxs = HtmlXPathSelector(response)
   #Mock Item
 blah = Item()
 #Do all your page parsing and selecting the elemtents you want
   blash.divText = hxs.select('//div/text()').extract()[0]
 yield blah

希望本文所述对大家的Python程序设计有所帮助。

标签:Python,scrapy,抓取
0
投稿

猜你喜欢

  • python selenium 获取标签的属性值、内容、状态方法

    2021-03-12 23:02:46
  • python学习之可迭代对象、迭代器、生成器

    2023-08-22 03:21:46
  • Python 实现自动化Excel报表的步骤

    2022-12-01 10:49:29
  • javascript面向对象技术基础(二)

    2010-02-07 13:09:00
  • 设置mysql最大连接数的方法

    2010-12-03 16:00:00
  • Python判断文件或文件夹是否存在的三种方法

    2021-04-25 21:53:06
  • ASP模拟MVC模型的编程方式

    2008-10-15 14:51:00
  • 在ASP中使用SQL语句之3:LIKE、NOT LIKE和 BETWEEN

    2007-08-11 12:30:00
  • Python用摘要算法生成token及检验token的示例代码

    2022-05-30 10:22:10
  • 关于Math.PI、前自增和后自增

    2009-05-25 12:38:00
  • python装饰器简介---这一篇也许就够了(推荐)

    2021-02-21 23:09:20
  • 对python操作kafka写入json数据的简单demo分享

    2023-05-04 21:24:08
  • MySQL数据库查询性能优化策略

    2024-01-14 17:53:41
  • mysql出现10061错误解决办法

    2010-07-04 13:36:00
  • 2008农历新年各大网站Logo秀

    2008-02-11 16:33:00
  • python读取并显示图片的三种方法(opencv、matplotlib、PIL库)

    2023-03-24 19:43:02
  • 解决goland新建项目文件名为红色的问题

    2024-04-25 14:58:49
  • 对MySQL几种联合查询的通俗解释

    2024-01-18 17:44:40
  • Django中自定义查询对象的具体使用

    2021-05-26 03:11:18
  • Python基于Twilio及腾讯云实现国际国内短信接口

    2021-05-28 22:38:51
  • asp之家 网络编程 m.aspxhome.com