Python统计词频的几种方法小结
作者:西西弗斯推石头 时间:2023-10-22 05:35:41
本文介绍python统计词频的几种方法,供大家参考
方法一:运用集合去重方法
def word_count1(words,n):
word_list = []
for word in set(words):
num = words.counts(word)
word_list.append([word,num])
word_list.sort(key=lambda x:x[1], reverse=True)
for i in range(n):
word, count = word_list[i]
print('{0:<15}{1:>5}'.format(word, count))
说明:运用集合对文本字符串列表去重,这样统计词汇不会重复,运用列表的counts方法统计频数,将每个词汇和其出现的次数打包成一个列表加入到word_list中,运用列表的sort方法排序,大功告成。
方法二:运用字典统计
def word_count2(words,n):
counts = {}
for word in words:
if len(word) == 1:
continue
else:
counts[word] = counts.get(word, 0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(n):
word, count = items[i]
print("{0:<15}{1:>5}".format(word, count))
方法三:使用计数器
def word_count3(words,n):
from collections import Counter
counts = Counter(words)
for ch in "": # 删除一些不需要统计的元素
del counts[ch]
for word, count in counts.most_common(n): # 已经按数量大小排好了
print("{0:<15}{1:>5}".format(word, count))
来源:https://blog.csdn.net/m0_58960107/article/details/129120731
标签:Python,统计词频
0
投稿
猜你喜欢
不完全HTML在线编辑器收集
2007-11-08 12:20:00
python 2.6.6升级到python 2.7.x版本的方法
2022-09-25 15:07:45
Vue组件公用方法提取mixin实现
2024-06-07 16:02:47
JS IOS/iPhone的Safari浏览器不兼容Javascript中的Date()问题如何解决
2023-09-23 19:39:47
mysql中limit的用法深入分析
2024-01-21 17:28:17
python 调用c语言函数的方法
2023-12-11 17:24:21
Python移动测试开发subprocess模块项目实战
2022-09-06 11:11:19
为什么Access数据库的精髓不在VBA之中
2008-11-28 16:45:00
JavaScript正则表达式的贪婪匹配和非贪婪匹配
2024-04-30 09:53:01
python selenium实现智联招聘数据爬取
2022-08-30 00:29:02
详解Tensorflow不同版本要求与CUDA及CUDNN版本对应关系
2021-01-09 10:40:27
FFrpc python客户端lib使用解析
2023-09-06 00:12:20
详细讲解HTTP协议工作方式
2022-01-08 11:55:59
在Ubuntu使用SQL Server创建Go应用程序的图文教程
2024-01-15 10:50:50
新手程序员编程必不可少的工具
2023-10-24 08:16:25
Go语言实现socket实例
2024-02-04 20:17:30
golang API开发过程的中的自动重启方式(基于gin框架)
2024-02-03 02:56:48
查看mysql当前连接数的方法详解
2024-01-21 03:24:59
Golang巧用defer进行错误处理的方法
2023-08-05 03:21:13
用我喜欢的字体(Cufon)
2009-12-11 18:51:00