位置：首页>> 网络编程>> Python编程>> python使用jieba实现中文分词去停用词方法示例

python使用jieba实现中文分词去停用词方法示例

作者：circle元　　发布时间：2021-02-04 11:27:17　

标签：python,jieba,中文分词

前言

jieba 基于Python的中文分词工具，安装使用非常方便，直接pip即可，2/3都可以，功能强悍，十分推荐。

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词模块jieba，它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8

支持三种分词模式

1 精确模式，试图将句子最精确地切开，适合文本分析；

2 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

3 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

# 精确模式 seg_list = jieba.cut("我去过清华大学和北京大学。")
# 全模式 seg_list = jieba.cut("我去过清华大学和北京大学。", cut_all=True)
# 搜索引擎模式 seg_list = jieba.cut_for_search("我去过清华大学和北京大学。")

#精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。
#全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /
#搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
if word.encode("utf-8")not in stopwords:
stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

来源：http://www.cnblogs.com/52circle/p/8540511.html

0

投稿

猜你喜欢

ajax 同步请求和异步请求的差异分析
ajax 同步请求和异步请求的差异分析，需要的朋友可以参考下。代码一：Synchronize = function(url,param) {
Django+Celery实现动态配置定时任务的方法示例
哈喽，今天给大家分享一篇Django+Celery实现动态配置定时任务，因为最近也是无意间看到一位大佬关于这块的文章，然后自己觉得不错，也想
数据库Sql实现截取时间段和日期实例(SQL时间截取)
【写在前面】前些日子接到这样的需求，我们要对用户访问网站的时间做个统计，但是我想统计到具体的时间点，便于统计不同时间段（上午、下午、傍晚、凌
Python读写锁实现实现代码解析
起步Python 提供的多线程模型中并没有提供读写锁，读写锁相对于单纯的互斥锁，适用性更高，可以多个线程同时占用读模式的读写锁，但是只能一个
pandas 空数据处理方法详解
这篇文章主要介绍了pandas 空数据处理方法详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可
教你如何在Pygame 中移动你的游戏角色
Pygame是一组跨平台的 Python 模块，专为编写视频游戏而设计。它包括旨在与 Python 编程语言一起使用的计算机图形和声音库。您
朴素贝叶斯分类算法原理与Python实现与使用方法案例
本文实例讲述了朴素贝叶斯分类算法原理与Python实现与使用方法。分享给大家供大家参考，具体如下：朴素贝叶斯分类算法1、朴素贝叶斯分类算法原
Python+OpenCV目标跟踪实现基本的运动检测
目标跟踪是对摄像头视频中的移动目标进行定位的过程，有着非常广泛的应用。实时目标跟踪是许多计算机视觉应用的重要任务，如监控、基于感知的用户界面
使用python远程操作linux过程解析
这篇文章主要介绍了使用python远程操作linux过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需
Vue数据劫持详情介绍
前言Vue会对我们在data中传入的数据进行拦截：对象：递归的为对象的每个属性都设置get/set方法数组：修改数组的原型方法，对于会修改原
python实现的重启关机程序实例
本文实例讲述了Python实现的重启关机程序的方法，对Python程序设计有一定的参考价值。具体方法如下：实例代码如下：#!/usr/bin
Python调用scp向服务器上传文件示例
最近做的项目中有一个小功能：在python中调用scp命令使用ssh登录，然后将指定目录中的图片上传到服务器指定目录网上搜了很多方法都没用，
Python2和Python3之间的str处理方式导致乱码的讲解
Python字符串问题在arcpy中版本为 python2.x在QGIS中版本为 python2.x 或者 python3.xpython2
python实现DNS正向查询、反向查询的例子
1.DNS查询过程：以查询 www.baidu.com为例（1）电脑向本地域名服务器发送解析www.baidu.com的请求（2）本地域名服
asp.net网站开发中用jquery实现滚动浏览器滚动条加载数据(类似于腾讯微博)
自从腾讯微博上线以来，基本上就开始用了，一直到现在，作为一个开发人员，也看到了腾讯微博一直在不停的改变，也不知道大家有没有发现，腾讯微博提供
python 读取修改pcap包的例子
思路利用scapy库,在这个库的基础下能够做很多的事情,python读取pcap包网上一找一大把将读取出来的pcap包改一个名字,然后写回,
对tensorflow中tf.nn.conv1d和layers.conv1d的区别详解
在用tensorflow做一维的卷积神经网络的时候会遇到tf.nn.conv1d和layers.conv1d这两个函数，但是这两个函数有什么
用CSS实现图片等比例缩放
您是否常常在做网页的过程中发现一个问题呢？当图片上传的时候，如果图片太大，就会把网页撑破，唯一做的就要先把它用软件缩小，再上传上
解决Mysql报Invalid default value for ''operate_time''错误的问题
在数据库中执行建表语句CREATE TABLE `sys_acl` ( `id` int(11) NOT NULL AUTO_INCREME
基于Python实现简单的人脸识别系统
前言最近又多了不少朋友关注，先在这里谢谢大家。关注我的朋友大多数都是大学生，而且我简单看了一下，低年级的大学生居多，大多数都是为了完成课程设

python 进阶学习之python装饰器小结

python自动发邮件库yagmail的示例代码

Python爬虫之教你利用Scrapy爬取图片

Pycharm学习教程（5） Python快捷键相关设置

在django中查询获取数据,get, filter,all(),values()操作

Python实现的旋转数组功能算法示例

Python用K-means聚类算法进行客户分群的实现

Python学习之pip包管理工具的使用

Python-OpenCV教程之图像的位运算详解

python去掉字符串中重复字符的方法

创造与魔法云鸟怎么捕获

如何在word 2016中自定义新的目录样式

黎明觉醒怎么装水

excel2003分页符设置方法

如何使用键盘操控苹果Mac？

漫漫长夜游戏中如何打猎？打猎方法分享

Win10系统经常memory management蓝屏如何修复？

Win8系统更改开始屏幕背景的方法详细介绍

iOS 12 beta 11 更新后出现的 Bug 怎么解决？

spring异步service中处理线程数限制详解

手机版 网络编程 asp之家 www.aspxhome.com