python实现的读取网页并分词功能示例

作者:笨小孩好笨 时间:2022-05-08 07:06:38 

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:


import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
 # <p>标签的处理
 for line in div.findChildren():
   file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
 with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
   for line in file_object.readlines():
     seg_list = jieba.cut(line,cut_all=False)
     file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

来源:https://blog.csdn.net/u013288190/article/details/79736198

标签:python,读取网页,分词
0
投稿

猜你喜欢

  • asp提高首页性能的一个技巧

    2008-04-05 06:54:00
  • Python AES加密模块用法分析

    2021-05-29 05:13:58
  • CSS网页布局扩展小技巧

    2010-06-03 12:13:00
  • 把论坛从ACCESS转成SQL版本

    2009-04-13 15:59:00
  • PHP封装的一个支持HTML、JS、PHP重定向的多功能跳转函数

    2023-11-19 07:25:14
  • [译]JavaScript中的Timer是怎么工作的

    2009-02-06 15:39:00
  • Python使用re模块正则提取字符串中括号内的内容示例

    2022-06-15 14:20:04
  • 微软建议的ASP性能优化28条守则(5)

    2008-02-27 13:54:00
  • python使用json序列化datetime类型实例解析

    2021-03-03 05:33:40
  • 可用性测试过程中需要关注的一些细节

    2009-03-06 12:38:00
  • python 中文件输入输出及os模块对文件系统的操作方法

    2023-04-10 18:34:05
  • 使用SQL语句 INNER JOIN 联接表

    2008-04-27 20:31:00
  • JavaScript 实现模态对话框 源代码大全

    2023-08-22 20:32:24
  • 将图片读入到Dom中,并将其存为xml文件

    2008-09-04 11:24:00
  • 详解pandas.DataFrame中删除包涵特定字符串所在的行

    2023-08-23 23:37:45
  • js实现input+select组合 抛砖引玉

    2010-08-02 12:34:00
  • Python Pandas知识点之缺失值处理详解

    2023-09-29 20:23:16
  • 2行css代码屏蔽网页挂马

    2008-09-29 18:54:00
  • asp.net DropDownList实现二级联动效果

    2023-07-23 07:48:41
  • 如何让新安装的MySQL数据库变得更安全

    2009-01-04 13:19:00
  • asp之家 网络编程 m.aspxhome.com