python实现的读取网页并分词功能示例
作者:笨小孩好笨 时间:2022-05-08 07:06:38
本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:
这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba
或点击此处本站下载jieba库。
代码:
import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
# <p>标签的处理
for line in div.findChildren():
file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
for line in file_object.readlines():
seg_list = jieba.cut(line,cut_all=False)
file_cut_object.write('/'.join(seg_list))
爬取结果:
分词结果:
希望本文所述对大家Python程序设计有所帮助。
来源:https://blog.csdn.net/u013288190/article/details/79736198
标签:python,读取网页,分词
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
asp提高首页性能的一个技巧
2008-04-05 06:54:00
Python AES加密模块用法分析
2021-05-29 05:13:58
CSS网页布局扩展小技巧
2010-06-03 12:13:00
把论坛从ACCESS转成SQL版本
2009-04-13 15:59:00
PHP封装的一个支持HTML、JS、PHP重定向的多功能跳转函数
2023-11-19 07:25:14
[译]JavaScript中的Timer是怎么工作的
2009-02-06 15:39:00
![](https://img.aspxhome.com/file/UploadPic/20092/6/timers-65s.png)
Python使用re模块正则提取字符串中括号内的内容示例
2022-06-15 14:20:04
微软建议的ASP性能优化28条守则(5)
2008-02-27 13:54:00
python使用json序列化datetime类型实例解析
2021-03-03 05:33:40
可用性测试过程中需要关注的一些细节
2009-03-06 12:38:00
python 中文件输入输出及os模块对文件系统的操作方法
2023-04-10 18:34:05
使用SQL语句 INNER JOIN 联接表
2008-04-27 20:31:00
![](https://img.aspxhome.com/file/UploadPic/20084/27/sql_15s.gif)
JavaScript 实现模态对话框 源代码大全
2023-08-22 20:32:24
将图片读入到Dom中,并将其存为xml文件
2008-09-04 11:24:00
详解pandas.DataFrame中删除包涵特定字符串所在的行
2023-08-23 23:37:45
![](https://img.aspxhome.com/file/2023/6/76966_0s.png)
js实现input+select组合 抛砖引玉
2010-08-02 12:34:00
Python Pandas知识点之缺失值处理详解
2023-09-29 20:23:16
![](https://img.aspxhome.com/file/2023/0/63220_0s.png)
2行css代码屏蔽网页挂马
2008-09-29 18:54:00
asp.net DropDownList实现二级联动效果
2023-07-23 07:48:41
![](https://img.aspxhome.com/file/2023/6/79976_0s.jpg)
如何让新安装的MySQL数据库变得更安全
2009-01-04 13:19:00