Python正则抓取新闻标题和链接的方法示例

作者:我要的shine 时间:2022-05-16 06:01:31 

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:


#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
 pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
 title = re.findall(pat, info)
 titles='\n'.join(title)
 #print titles
#修改指定字符串
 titles1=titles.replace('class="title"','title')
 titles2=titles1.replace('>',':')
 titles3=titles2.replace('href','url:')
 titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
 save=open('xinwen.txt','w')
 save.write(titles4)
 save.close()
titles = extract_title(doc)

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg

希望本文所述对大家Python程序设计有所帮助。

标签:Python,正则,抓取
0
投稿

猜你喜欢

  • 关于Python字符编码与二进制不得不说的一些事

    2022-01-07 14:56:46
  • JS基于开关思想实现的数组去重功能【案例】

    2024-04-17 10:31:02
  • Python编程matplotlib绘图挑钻石seaborn小提琴和箱线图

    2022-03-06 20:08:29
  • Flask项目的部署的实现步骤

    2023-08-11 17:59:58
  • Python快速生成定制化的Word(docx)文档

    2022-04-27 12:33:06
  • Python字符串格式化

    2023-08-19 20:27:44
  • 有效LOGO设计的最重要的提示

    2010-06-09 12:05:00
  • 防采集,几种觉得有用的防采集方法

    2009-09-03 13:30:00
  • Java实现飞机大战-连接数据库并把得分写入数据库

    2024-01-26 19:16:54
  • DBA_2PC_PENDING 介绍

    2009-02-28 10:59:00
  • 详解python函数传参是传值还是传引用

    2023-11-13 13:25:58
  • Django使用unittest模块进行单元测试过程解析

    2021-04-03 13:09:08
  • Vue开发环境跨域访问问题

    2023-07-02 17:07:34
  • numpy的Fancy Indexing和array比较详解

    2022-05-12 23:31:46
  • Python unittest生成测试报告过程解析

    2023-02-18 13:13:17
  • Vue.js鼠标悬浮更换图片功能

    2024-04-30 10:42:35
  • JS事件在IE与FF中的区别详细解析

    2023-09-24 23:02:35
  • python 3.5实现检测路由器流量并写入txt的方法实例

    2022-11-26 01:35:23
  • xmlHttp msxml3.dll 错误 '800c0008' 解决办法

    2008-08-31 20:44:00
  • 了解一点js的Eval函数

    2024-04-19 09:59:45
  • asp之家 网络编程 m.aspxhome.com