python 文本单词提取和词频统计的实例
作者:超级杰哥 时间:2022-10-25 04:53:03
这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。
操作:
strip_html(cls, text) 去除html标签
separate_words(cls, text, min_lenth=3) 文本提取
get_words_frequency(cls, words_list) 获取词频
源码:
class DocProcess(object):
@classmethod
def strip_html(cls, text):
"""
Delete html tags in text.
text is String
"""
new_text = " "
is_html = False
for character in text:
if character == "<":
is_html = True
elif character == ">":
is_html = False
new_text += " "
elif is_html is False:
new_text += character
return new_text
@classmethod
def separate_words(cls, text, min_lenth=3):
"""
Separate text into words in list.
"""
splitter = re.compile("\\W+")
return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]
@classmethod
def get_words_frequency(cls, words_list):
"""
Get frequency of words in words_list.
return a dict.
"""
num_words = {}
for word in words_list:
num_words[word] = num_words.get(word, 0) + 1
return num_words
来源:https://blog.csdn.net/autoliuweijie/article/details/50687419
标签:python,文本,单词,词频
0
投稿
猜你喜欢
微信小程序(十二)text组件详细介绍
2024-04-19 09:43:53
Python版名片管理系统
2021-08-28 18:51:22
Microsoft VBScript 运行时错误 错误 800a0005 无效的过程调用或参数: chr
2011-03-09 11:03:00
django执行原生SQL查询的实现
2023-11-11 13:34:04
mysql 按中文字段排序
2024-01-14 18:04:19
django中瀑布流写法实例代码
2022-08-04 11:11:26
Python Playwright 文本框操作技巧
2023-01-15 20:59:21
实现动画效果核心方式的js代码
2024-04-19 10:45:39
Python计算多幅图像栅格值的平均值
2021-03-28 01:41:05
MySQL 5.0默认100连接数的修改
2008-11-05 13:34:00
跟老齐学Python之list和str比较
2021-02-26 22:36:36
网页设计的十要十不要
2007-12-21 13:01:00
浅谈Python数学建模之数据导入
2022-08-11 01:10:28
Python实现构建一个仪表板的示例代码
2023-10-03 11:53:27
浅析python参数的知识点
2022-12-16 01:39:32
Pymysql实现往表中插入数据过程解析
2022-03-24 10:31:43
python实现简单井字棋小游戏
2023-01-15 05:14:57
详解python pandas 分组统计的方法
2021-01-30 05:33:48
Echarts利用多X轴实现七天天气预报效果的示例代码
2024-03-11 10:33:05
再谈 Web 字体的现状与未来[译]
2009-11-24 13:55:00