Python统计文本词汇出现次数的实例代码
作者:李和龙 时间:2022-01-11 02:13:14
问题描述
有时在遇到一个文本需要统计文本内词汇的次数 的时候 ,可以用一个简单的python程序来实现。
解决方案
首先需要的是一个文本文件(.txt)格式(文本内词汇以空格分隔),因为需要的是一个程序,所以要考虑如何将文件打开而不是采用复制粘贴的方式。这时就要用到open()的方式来打开文档,然后通过read()读取其中内容,再将词汇作为key,出现次数作为values存入字典。
图 1 txt文件内容
再通过open和read函数来读取文件:
open_file=open("text.txt")
file_txt=open_file.read()
然后再创建一个空字典,将所有出现的每个词汇作为key保存到字典中,对文本从开始到结束,循环处理每个词汇,并将词汇设置为一个字典的key,将其value设置为1,如果已经存在该词汇的key,说明该词汇已经使用过,就将value累积加1。
代码示例:
def wordcount(readtxt):
readlist = readtxt.split()
dict1={}
for every_world in readlist:
if every_world in dict1:
dict1[every_world] += 1
else:
dict1[every_world] = 1
return dict1
print(wordcount(file_txt))
这里加了def函数把该程序封装成一个函数。
最后输出得到词汇出现的字典:
图 2 形成字典
ps:下面看下python统计文本中每个单词出现的次数
1.python统计文本中每个单词出现的次数:
#coding=utf-8
__author__ = 'zcg'
import collections
import os
with open('abc.txt') as file1:#打开文本文件
str1=file1.read().split(' ')#将文章按照空格划分开
print "原文本:\n %s"% str1
print "\n各单词出现的次数:\n %s" % collections.Counter(str1)
print collections.Counter(str1)['a']#以字典的形式存储,每个字符对应的键值就是在文本中出现的次数
2.python编写生成序列化:
__author__ = 'zcg'
#endcoding utf-8
import string,random
field=string.letters+string.digits
def getRandom():
return "".join(random.sample(field,4))
def concatenate(group):
return "-".join([getRandom() for i in range(group)])
def generate(n):
return [concatenate(4) for i in range(n)]
if __name__ =='__main__':
print generate(10)
3.遍历excel表格中的所有数据:
__author__ = 'Administrator'
import xlrd
workbook = xlrd.open_workbook('config.xlsx')
print "There are {} sheets in the workbook".format(workbook.nsheets)
for booksheet in workbook.sheets():
for col in xrange(booksheet.ncols):
for row in xrange(booksheet.nrows):
value=booksheet.cell(row,col).value
print value
其中xlrd需要百度下载导入这个模块到python中
4.将表格中的数据整理成lua类型的一个格式
#coding=utf-8
__author__ = 'zcg'
#2017 9/26
import xlrd
fileOutput = open('Configs.lua','w')
writeData="--@author:zcg\n\n\n"
workbook = xlrd.open_workbook('config.xlsx')
print "There are {} sheets in the workbook".format(workbook.nsheets)
for booksheet in workbook.sheets():
writeData = writeData+'AT' +booksheet.name+' ={\n'
for col in xrange(booksheet.ncols):
for row in xrange(booksheet.nrows):
value = booksheet.cell(row,col).value
if row ==0:
writeData = writeData+'\t'+'["'+value+'"]'+'='+'{'
else:
writeData=writeData+'"'+str(booksheet.cell(row,col).value)+'", '
else:
writeData=writeData+'},\n'
else:
writeData=writeData+'}\n\n'
else :
fileOutput.write(writeData)
fileOutput.close()
来源:https://mp.weixin.qq.com/s
标签:Python,文本,词汇,次数
0
投稿
猜你喜欢
Golang二维切片初始化的实现
2024-05-09 14:57:54
String与string的区别(注意大小写)
2023-06-28 22:04:13
php实现的美国50个州选择列表实例
2023-11-17 11:06:06
IE9硬件加速性能远超Chrome5.0和Firefox4.0
2010-06-09 11:12:00
Python函数返回值实例分析
2022-06-23 06:59:07
golang实现数组分割的示例代码
2024-05-08 10:23:41
基于javascript实现全国省市二级联动下拉选择菜单
2023-09-14 06:08:52
使用 TRUNCATE TABLE 删除所有行
2008-04-24 19:20:00
一文详解Python中的super 函数
2022-02-26 03:18:35
利用Vue实现卡牌翻转的特效
2024-04-30 10:30:45
python爬虫之百度API调用方法
2021-11-18 17:17:13
使用sql语句创建和删除约束示例代码
2024-01-15 21:55:51
网页打开速度的心理学
2009-03-26 13:18:00
用PHP编写每周签到功能以提高用户参与度
2023-05-27 17:24:54
Python排序搜索基本算法之冒泡排序实例分析
2023-10-18 19:27:26
如何使用VUE+faceApi.js实现摄像头拍摄人脸识别
2023-07-02 16:32:04
Python图像处理之图像的缩放、旋转与翻转实现方法示例
2023-03-09 11:25:20
Python Pandas中布尔索引的用法详解
2023-11-04 08:37:45
win7下MySql 5.7安装配置方法图文教程
2024-01-20 21:04:12
python实现桌面壁纸切换功能
2023-05-26 04:38:49