Python统计文本词汇出现次数的实例代码

作者:李和龙 时间:2022-01-11 02:13:14 

问题描述

有时在遇到一个文本需要统计文本内词汇的次数 的时候 ,可以用一个简单的python程序来实现。

解决方案

首先需要的是一个文本文件(.txt)格式(文本内词汇以空格分隔),因为需要的是一个程序,所以要考虑如何将文件打开而不是采用复制粘贴的方式。这时就要用到open()的方式来打开文档,然后通过read()读取其中内容,再将词汇作为key,出现次数作为values存入字典。

Python统计文本词汇出现次数的实例代码

图 1 txt文件内容

再通过open和read函数来读取文件:


open_file=open("text.txt")
file_txt=open_file.read()

然后再创建一个空字典,将所有出现的每个词汇作为key保存到字典中,对文本从开始到结束,循环处理每个词汇,并将词汇设置为一个字典的key,将其value设置为1,如果已经存在该词汇的key,说明该词汇已经使用过,就将value累积加1。

代码示例:


def wordcount(readtxt):
readlist = readtxt.split()
dict1={}
for every_world in readlist:
if every_world in dict1:
dict1[every_world] += 1
else:
dict1[every_world] = 1
return dict1
print(wordcount(file_txt))

这里加了def函数把该程序封装成一个函数。
最后输出得到词汇出现的字典:

Python统计文本词汇出现次数的实例代码

图 2 形成字典

ps:下面看下python统计文本中每个单词出现的次数

1.python统计文本中每个单词出现的次数:


#coding=utf-8
__author__ = 'zcg'
import collections
import os
with open('abc.txt') as file1:#打开文本文件
str1=file1.read().split(' ')#将文章按照空格划分开
print "原文本:\n %s"% str1
print "\n各单词出现的次数:\n %s" % collections.Counter(str1)
print collections.Counter(str1)['a']#以字典的形式存储,每个字符对应的键值就是在文本中出现的次数

2.python编写生成序列化:


__author__ = 'zcg'
#endcoding utf-8
import string,random
field=string.letters+string.digits
def getRandom():
return "".join(random.sample(field,4))
def concatenate(group):
return "-".join([getRandom() for i in range(group)])
def generate(n):
return [concatenate(4) for i in range(n)]
if __name__ =='__main__':
print generate(10)

3.遍历excel表格中的所有数据:


__author__ = 'Administrator'
import xlrd
workbook = xlrd.open_workbook('config.xlsx')
print "There are {} sheets in the workbook".format(workbook.nsheets)
for booksheet in workbook.sheets():
for col in xrange(booksheet.ncols):
for row in xrange(booksheet.nrows):
value=booksheet.cell(row,col).value
print value

其中xlrd需要百度下载导入这个模块到python中

4.将表格中的数据整理成lua类型的一个格式


#coding=utf-8
__author__ = 'zcg'
#2017 9/26
import xlrd
fileOutput = open('Configs.lua','w')
writeData="--@author:zcg\n\n\n"
workbook = xlrd.open_workbook('config.xlsx')
print "There are {} sheets in the workbook".format(workbook.nsheets)
for booksheet in workbook.sheets():
writeData = writeData+'AT' +booksheet.name+' ={\n'
for col in xrange(booksheet.ncols):
for row in xrange(booksheet.nrows):
value = booksheet.cell(row,col).value
if row ==0:
writeData = writeData+'\t'+'["'+value+'"]'+'='+'{'
else:
writeData=writeData+'"'+str(booksheet.cell(row,col).value)+'", '
else:
writeData=writeData+'},\n'
else:
writeData=writeData+'}\n\n'
else :
fileOutput.write(writeData)
fileOutput.close()

来源:https://mp.weixin.qq.com/s

标签:Python,文本,词汇,次数
0
投稿

猜你喜欢

  • 应用OpenCV和Python进行SIFT算法的实现详解

    2022-05-16 05:42:00
  • Python 解决空列表.append() 输出为None的问题

    2023-07-24 14:07:57
  • Python使用smtplib模块发送电子邮件的流程详解

    2023-09-28 03:28:35
  • PHP微信开发之有道翻译

    2023-11-22 01:08:19
  • Python PyQt5实战项目之网速监控器的实现

    2023-05-25 12:57:07
  • 渗透和改变 非洲web 2.0网站Logo

    2008-01-22 13:31:00
  • 基python实现多线程网页爬虫

    2023-10-30 00:58:48
  • 整理各种js按比例缩放图片方法

    2007-09-27 20:01:00
  • 在ASP.NET 2.0中操作数据之五十五:编辑和删除现有的二进制数据

    2023-07-10 02:05:43
  • python中的Pytorch建模流程汇总

    2022-04-26 19:02:14
  • python基础之递归函数

    2021-11-29 03:28:30
  • Python文本处理简单易懂方法解析

    2021-08-09 02:45:16
  • python+Matplotlib 绘制带置信区间的折线图

    2022-04-29 06:23:40
  • Python数据可视化之绘制柱状图和条形图

    2022-10-19 21:51:46
  • Python爬取视频(其实是一篇福利)过程解析

    2021-09-21 17:52:11
  • 深入解析PHP 5.3.x 的strtotime() 时区设定 警告信息修复

    2023-11-06 19:25:27
  • php实现压缩多个CSS与JS文件的方法

    2023-11-23 08:39:59
  • 如何禁止搜索引擎收录你的网站

    2008-10-20 12:57:00
  • 浅谈Python线程的同步互斥与死锁

    2022-06-26 17:38:37
  • 对python读取zip压缩文件里面的csv数据实例详解

    2022-04-14 10:48:57
  • asp之家 网络编程 m.aspxhome.com