python 文本单词提取和词频统计的实例

作者:超级杰哥 时间:2022-10-25 04:53:03 

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:


class DocProcess(object):

@classmethod
def strip_html(cls, text):
 """
  Delete html tags in text.
  text is String
 """
 new_text = " "
 is_html = False
 for character in text:
  if character == "<":
   is_html = True
  elif character == ">":
   is_html = False
   new_text += " "
  elif is_html is False:
   new_text += character
 return new_text

@classmethod
def separate_words(cls, text, min_lenth=3):
 """
  Separate text into words in list.
 """
 splitter = re.compile("\\W+")
 return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

@classmethod
def get_words_frequency(cls, words_list):
 """
  Get frequency of words in words_list.
  return a dict.
 """
 num_words = {}
 for word in words_list:
  num_words[word] = num_words.get(word, 0) + 1
 return num_words

来源:https://blog.csdn.net/autoliuweijie/article/details/50687419

标签:python,文本,单词,词频
0
投稿

猜你喜欢

  • 微信小程序(十二)text组件详细介绍

    2024-04-19 09:43:53
  • Python版名片管理系统

    2021-08-28 18:51:22
  • Microsoft VBScript 运行时错误 错误 800a0005 无效的过程调用或参数: chr

    2011-03-09 11:03:00
  • django执行原生SQL查询的实现

    2023-11-11 13:34:04
  • mysql 按中文字段排序

    2024-01-14 18:04:19
  • django中瀑布流写法实例代码

    2022-08-04 11:11:26
  • Python Playwright 文本框操作技巧

    2023-01-15 20:59:21
  • 实现动画效果核心方式的js代码

    2024-04-19 10:45:39
  • Python计算多幅图像栅格值的平均值

    2021-03-28 01:41:05
  • MySQL 5.0默认100连接数的修改

    2008-11-05 13:34:00
  • 跟老齐学Python之list和str比较

    2021-02-26 22:36:36
  • 网页设计的十要十不要

    2007-12-21 13:01:00
  • 浅谈Python数学建模之数据导入

    2022-08-11 01:10:28
  • Python实现构建一个仪表板的示例代码

    2023-10-03 11:53:27
  • 浅析python参数的知识点

    2022-12-16 01:39:32
  • Pymysql实现往表中插入数据过程解析

    2022-03-24 10:31:43
  • python实现简单井字棋小游戏

    2023-01-15 05:14:57
  • 详解python pandas 分组统计的方法

    2021-01-30 05:33:48
  • Echarts利用多X轴实现七天天气预报效果的示例代码

    2024-03-11 10:33:05
  • 再谈 Web 字体的现状与未来[译]

    2009-11-24 13:55:00
  • asp之家 网络编程 m.aspxhome.com