Python正则抓取新闻标题和链接的方法示例
作者:我要的shine 时间:2022-05-16 06:01:31
本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:
#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
title = re.findall(pat, info)
titles='\n'.join(title)
#print titles
#修改指定字符串
titles1=titles.replace('class="title"','title')
titles2=titles1.replace('>',':')
titles3=titles2.replace('href','url:')
titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
save=open('xinwen.txt','w')
save.write(titles4)
save.close()
titles = extract_title(doc)
PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:
JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript
正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg
希望本文所述对大家Python程序设计有所帮助。
标签:Python,正则,抓取
0
投稿
猜你喜欢
关于Python字符编码与二进制不得不说的一些事
2022-01-07 14:56:46
JS基于开关思想实现的数组去重功能【案例】
2024-04-17 10:31:02
Python编程matplotlib绘图挑钻石seaborn小提琴和箱线图
2022-03-06 20:08:29
Flask项目的部署的实现步骤
2023-08-11 17:59:58
Python快速生成定制化的Word(docx)文档
2022-04-27 12:33:06
Python字符串格式化
2023-08-19 20:27:44
有效LOGO设计的最重要的提示
2010-06-09 12:05:00
防采集,几种觉得有用的防采集方法
2009-09-03 13:30:00
Java实现飞机大战-连接数据库并把得分写入数据库
2024-01-26 19:16:54
DBA_2PC_PENDING 介绍
2009-02-28 10:59:00
详解python函数传参是传值还是传引用
2023-11-13 13:25:58
Django使用unittest模块进行单元测试过程解析
2021-04-03 13:09:08
Vue开发环境跨域访问问题
2023-07-02 17:07:34
numpy的Fancy Indexing和array比较详解
2022-05-12 23:31:46
Python unittest生成测试报告过程解析
2023-02-18 13:13:17
Vue.js鼠标悬浮更换图片功能
2024-04-30 10:42:35
JS事件在IE与FF中的区别详细解析
2023-09-24 23:02:35
python 3.5实现检测路由器流量并写入txt的方法实例
2022-11-26 01:35:23
xmlHttp msxml3.dll 错误 '800c0008' 解决办法
2008-08-31 20:44:00
了解一点js的Eval函数
2024-04-19 09:59:45