利用Python3分析sitemap.xml并抓取导出全站链接详解
作者:然之 时间:2022-01-26 16:27:08
前言
最近网站从HTTPS转为HTTP,更换了网址,旧网址做了301重定向,折腾有点大,于是在百度站长平台提交网址,不管是主动推送还是手动提交,前提都是要整理网站的链接,手动添加太麻烦,效率低,于是就想写个脚本直接抓取全站链接并导出,本文就和大家一起分享如何使用python3实现抓取链接导出。
首先网站要有网站地图sitemap.xml文件地址,其次我这里用的是python3版本,如果你的环境是python2,需要对代码进行调整,因为python2和python3很多地方差别还是挺大的。
下面是python 3代码,将里面的链接地址换成你自己的网址即可:
#coding=utf-8
import urllib
import urllib.request import re
url='http://www.ranzhi.org/sitemap.xml'
html=urllib.request.urlopen(url).read()
html=html.decode('utf-8')
r=re.compile(r'(http://www.ranzhi.org.*?\.html)')
big=re.findall(r,html)
for i in big:
print(i)
op_xml_txt=open('xml.txt','a')
op_xml_txt.write('%s\n'%i)
我们能来看一下运行结果:
导出TXT格式文件后,再在百度站长平台手动提交就方便的多了。当然我们也可以使用更快的主动推送方式,因为我的网站是用PHP+mysql开发的,所以我们这里使用PHP脚本将上面抓取的链接再处理下,然后主动推送给百度,一遍加快爬虫抓取时间。
上面1是你的站点的主动推送API,这个可以在百度站长平台获取;2是要主动推送的网站地址,这里就可以用到我们上面抓取的全站链接了。将链接地址整理放到该数组中,运行一下个这个PHP脚本,就可以了。一键提交,及高效便捷,又能缩短爬虫爬去时间,有助于网站页面收录。
我们在平时的SEO或服务器运维工作中,时常会将重复工作自动化,复杂工作间变化,有助于提升效率,如果大家在操作过充中有何问题可以一起分享交流讨论。
来源:http://www.oschina.net/question/1387449_2246376?sort=default
标签:python,抓取链接,sitemap.xml
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
一文带你学会使用PHP接口
2023-06-07 18:40:13
*.HTC 文件的简单介绍
2008-11-24 17:36:00
php设置编码格式的方法
2023-11-14 12:01:22
Sql Server、Oracle以及Access数据库 判断字段是否为空的办法 (From calmzeal's code life)
2011-02-24 19:44:00
微软建议的ASP性能优化28条守则(8)
2005-05-30 16:04:00
PHP中number_format()函数的用法讲解
2023-06-02 15:48:12
![](https://img.aspxhome.com/file/2023/6/55376_0s.png)
SQL语句练习实例之六 人事系统中的缺勤(休假)统计
2011-11-03 17:15:55
SQL Server数据库日志清除的两个方法
2009-01-08 13:44:00
关于淘宝商城新版的一点看法
2009-06-28 16:00:00
![](https://img.aspxhome.com/file/UploadPic/20096/28/taobao_mall_2-49s.png)
Python配置文件yaml的用法详解
2023-07-04 21:02:56
Oracle 8i字符集乱码问题析及其解决办法
2010-07-26 13:29:00
SQL Server 数据库备份和还原认识和总结 (一)
2012-10-07 10:52:54
ASP URL反编码函数代码
2011-02-28 11:04:00
SQL根据时间范围条件查询数据
2009-01-18 13:32:00
Python 的AES加密与解密实现
2022-07-09 21:49:49
用Dreamweaver MX实现网站批量更新
2009-09-13 18:39:00
![](https://img.aspxhome.com/file/UploadPic/20072/200723113154618s.jpg)
python 正则表达式 概述及常用字符
2023-03-03 07:16:15
利用phpexcel对数据库数据的导入excel(excel筛选)、导出excel
2023-09-04 13:50:42
如何将 Access 的 Memo 型态字段汇入到 SQL2005 的 nvarchar 型态字段
2008-12-26 18:13:00
详解Python数据可视化编程 - 词云生成并保存(jieba+WordCloud)
2023-08-22 18:03:06
![](https://img.aspxhome.com/file/2023/1/62011_0s.png)