Nodejs做文本数据处理实现详解

作者：Bertil 时间：2024-05-13 10:04:06　

nodejieba 简介

随着汉语言的广泛应用，中文信息处理成了一个重要的研究课题，常见于搜索引擎：信息检索、中外文自动翻译、数据挖掘技术、自然语言处理等领域。在处理的过程中，中文分词是最基础的一环。

nodeJieba 是结巴中文分词的 Node.js 版本实现，由 CppJieba 提供底层分词算法实现，是兼具高性能和易用性两者的 Node.js 中文分词插件。

nodejieba模块支持以下3种分词模式：

(1) 精确模式，试图将句子最精准地切开。

(2) 全模式，将句子中所有可以成词的词语都扫描出来，速度非常快。

(3) 搜索引擎模式，在精确模式的基础上对长词再次切分。

特点

词典载入方式灵活，无需配置词典路径也可使用，需要定制自己的词典路径时也可灵活定制。
底层算法实现是C++，性能高效。
支持多种分词算法。
支持动态补充词库。

常用API

noedejieba模块中提供了一系列函数，常用的有cut()函数、cutAll()函数、cutForSearch()函数、tag()函数、extract()函数。

1.cut()函数用来做精确模式下的内容分词，仅有1个参数sentence，表示需要分词性的内容字符串格式。

2.cutAll()函数用来做全模式下的内容分词，仅有1个参数sentence，表示需要分词性的内容字符串格式。

3.cutForSearch()函数用来做搜索引擎模式下的内容分词，仅有1个参数sentence，表示需要分词性的内容字符串格式。

4.tag()函数用来做词性标注，即根据词性来做分词分类，仅有1个参数sentence，表示需要分词性的内容字符串格式。

5.extract()函数用来做关键词抽取，有如下2个参数：

第一个参数为sentence，表示需要分词的内容字符串格式。
第二个参数为topN，表示只保留出现频率为前 N 的词。

基本使用

安装依赖

npm install nodejieba --save

词典载入可灵活配置

如果需要载入自己的词典，而不是默认词典。比如想要载入自己的用户词典，则使用以下函数：

nodejieba.load({
userDict: './test/testdata/userdict.utf8',
});

字典载入函数load的参数项都是可选的，如果没有对应的项则自动填充默认参数。所以上面这段代码和下面这代代码是等价的。

nodejieba.load({
dict: nodejieba.DEFAULT_DICT,
hmmDict: nodejieba.DEFAULT_HMM_DICT,
userDict: './test/testdata/userdict.utf8',
idfDict: nodejieba.DEFAULT_IDF_DICT,
stopWordDict: nodejieba.DEFAULT_STOP_WORD_DICT,
});

词典说明

dict: 主词典，带权重和词性标签，建议使用默认词典。
hmmDict: 隐式马尔科夫模型，建议使用默认词典。
userDict: 用户词典，建议自己根据需要定制。
idfDict: 关键词抽取所需的idf信息。
stopWordDict: 关键词抽取所需的停用词列表。

注意：如果没有主动调用词典函数时，则会在第一次调用cut等功能函数时，自动载入默认词典。且词典只会被加载一次。

1.分词用法

var nodejieba = require("nodejieba");
var result = nodejieba.cut("南京市长江大桥");// 精确模式
console.log(result);
//["南京市","长江大桥"]
var nodejieba = require("nodejieba");
var result = nodejieba.cutAll("南京市长江大桥");// 全模式
console.log(result);
// [
// '南京', '南京市',
// '京市', '市长',
// '长江', '长江大桥',
// '大桥'
// ]
var nodejieba = require("nodejieba");
var result = nodejieba.cutForSearch("南京市长江大桥");// 搜索引擎模式
console.log(result);
// [ '南京', '京市', '南京市', '长江', '大桥', '长江大桥' ]

2.词性标注

var nodejieba = require("nodejieba");
console.log(nodejieba.tag("红掌拨清波"));
//[ { word: '红掌', tag: 'n' },
// { word: '拨', tag: 'v' },
// { word: '清波', tag: 'n' } ]

3.关键词抽取

var nodejieba = require("nodejieba");
var topN = 4;
console.log(nodejieba.extract("升职加薪，当上CEO，走上人生巅峰。", topN));
//[ { word: 'CEO', weight: 11.739204307083542 },
// { word: '升职', weight: 10.8561552143 },
// { word: '加薪', weight: 10.642581114 },
// { word: '巅峰', weight: 9.49395840471 } ]
// textRankExtract API好像目前已弃用了
console.log(nodejieba.textRankExtract("升职加薪，当上CEO，走上人生巅峰。", topN));
//[ { word: '当上', weight: 1 },
// { word: '不用', weight: 0.9898479330698993 },
// { word: '多久', weight: 0.9851260595435759 },
// { word: '加薪', weight: 0.9830464899847804 },
// { word: '升职', weight: 0.9802777682279076 } ]

4.其他用法

var nodejieba = require('nodejieba');
var sentence = "我是拖拉机学院手扶拖拉机专业的。不用多久，我就会升职加薪，当上CEO，走上人生巅峰。";
var result;
// 没有主动调用nodejieba.load载入词典的时候，
// 会在第一次调用cut或者其他需要词典的函数时，自动载入默认词典。
// 词典只会被加载一次。
// 精确模式
result = nodejieba.cut(sentence);
console.log(result);
// 隐马尔可夫模型
result = nodejieba.cutHMM(sentence);
console.log(result);
// 全模式
result = nodejieba.cutAll(sentence);
console.log(result);
// 搜索引擎模式
result = nodejieba.cutForSearch(sentence);
console.log(result);
// 词性标注：根据词性来分
result = nodejieba.tag(sentence);
console.log(result);
var topN = 5;
// 关键词抽取，topN表示取前N个
result = nodejieba.extract(sentence, topN);
console.log(result);
result = nodejieba.cut("男默女泪");// 精确模式下分成四个字
console.log(result);
// 将该词汇插入词库
nodejieba.insertWord("男默女泪");
result = nodejieba.cut("男默女泪");// 在词库中已有的情况下，不细分了
console.log(result);
// 设定分词后的单个元素最大长度
result = nodejieba.cutSmall("南京市长江大桥", 3);
console.log(result);

来源：https://juejin.cn/post/7168814328626282509

标签：Nodejs,文本,数据处理

投稿

Nodejs做文本数据处理实现详解

nodejieba 简介

特点

常用API

基本使用

1.分词用法

2.词性标注

3.关键词抽取

4.其他用法

猜你喜欢

Python zip函数打包元素实例解析

在数据库中自动生成编号的实现方法分享

Python中模拟enum枚举类型的5种方法分享

pandas的qcut()方法详解

pygame游戏之旅游戏中添加显示文字

加速 PyTorch 模型训练的 9 个技巧(收藏)

对python 树状嵌套结构的实现思路详解

js执行shell命令的几种方式（Node）

使用Django实现商城验证码模块的方法

PHP 动态生成静态HTML页面示例代码

MySQL分区表实现按月份归类

python+pytest自动化测试函数测试类测试方法的封装

python 基于Appium控制多设备并行执行

Java数据库操作库DButils类的使用方法与实例详解

SQL Server中的执行引擎入门图解

python中使用矢量化替换循环详解

Mysql效率优化定位较低sql的两种方式

vue切换页面(路由)时如何保持滚动条回到顶部

Python基于动态规划算法计算单词距离

django用户注册、登录、注销和用户扩展的示例

Nodejs做文本数据处理实现详解

nodejieba 简介

特点

常用API

基本使用

1.分词用法

2.词性标注

3.关键词抽取

4.其他用法

猜你喜欢

Python zip函数打包元素实例解析

在数据库中自动生成编号的实现方法分享

Python中模拟enum枚举类型的5种方法分享

pandas的qcut()方法详解

pygame游戏之旅 游戏中添加显示文字

加速 PyTorch 模型训练的 9 个技巧(收藏)

对python 树状嵌套结构的实现思路详解

js执行shell命令的几种方式（Node）

使用Django实现商城验证码模块的方法

PHP 动态生成静态HTML页面示例代码

MySQL分区表实现按月份归类

python+pytest自动化测试函数测试类测试方法的封装

python 基于Appium控制多设备并行执行

Java数据库操作库DButils类的使用方法与实例详解

SQL Server中的执行引擎入门 图解

python中使用矢量化替换循环详解

Mysql效率优化定位较低sql的两种方式

vue切换页面(路由)时如何保持滚动条回到顶部

Python基于动态规划算法计算单词距离

django用户注册、登录、注销和用户扩展的示例

pygame游戏之旅游戏中添加显示文字

SQL Server中的执行引擎入门图解