C#中使用jieba.NET、WordCloudSharp制作词云图的步骤

作者:time-flies 时间:2022-02-10 19:38:49 

词云简介

“词云”由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于2006年最先使用,是通过形成“关键词云层”或“关键词渲染”,对文本中出现频率较高的“关键词”的视觉上的突出。
网上大部分文章介绍的是使用Python的jieba、wordcloud的库生成词云图,本文则介绍在C#中如何使用jieba.NET、WordCloudSharp库生成词云图,后者是前者的.NET实现。

准备工作

创建一个C#的控制台项目,通过NuGet添加引用对jieba.NET、WordCloudSharp的引用,使用方法可以参考以下链接:

  • jieba.NET:https://github.com/anderscui/jieba.NET

  • WordCloudSharp:https://github.com/AmmRage/WordCloudSharp

安装之后,在packages\jieba.NET目录下找到Resources目录,将整个Resources目录拷贝到程序集所在目录,这里面是jieba.NET运行所需的词典及其它数据文件。

基本算法

算法主要步骤如下:

  • 提取关键词:基于TF-IDF算法、TextRank算法提取文本的关键词,按权重大小选取部分关键词。

  • 统计关键词词频:先将文本分词,统计每个词的词频,再筛选出关键词的词频。

  • 生成词云图:根据关键词及其词频信息在蒙版图片的基础上生成词图。

注:本文采用TF-IDF算法提取关键词,蒙版图目前只支持黑白图片。

TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

算法实现

使用JiebaNet.Analyser.TfidfExtractor.ExtractTagsWithWeight(string text, int count = 20, IEnumerableallowPos = null)从指定文本中抽取关键词的同时得到其权重,代码如下:


/// <summary>
/// 从指定文本中抽取关键词的同时得到其权重
/// </summary>
/// <param name="text"></param>
/// <returns></returns>
static WordWeightPair[] ExtractTagsWithWeight(string text)
{
   var extractor = new TfidfExtractor();
   var wordWeight = extractor.ExtractTagsWithWeight(text, 50);
   StringBuilder sbr = new StringBuilder();
   sbr.Append("词语");
   sbr.Append(",");
   sbr.Append("权重");
   sbr.AppendLine(",");
   foreach (var item in wordWeight)
   {
       sbr.Append(item.Word);
       sbr.Append(",");
       sbr.Append(item.Weight);
       sbr.AppendLine(",");
   }
   string filename = "关键词权重统计.csv";
   File.WriteAllText(filename, sbr.ToString(), Encoding.UTF8);
   Console.WriteLine("关键词提取完成:" + filename);
   return wordWeight.ToArray();
}

使用JiebaNet.Segmenter.Common下的Counter类统计词频,其实现来自Python标准库的Counter类(具体接口和实现细节略有不同),代码如下:


/// <summary>
/// 分词并统计词频:默认为精确模式,同时也使用HMM模型
/// </summary>
/// <param name="text"></param>
/// <param name="wordWeightAry"></param>
/// <returns></returns>
static KeyValuePair<string, int>[] Counter(string text, WordWeightPair[] wordWeightAry)
{
   var segmenter = new JiebaSegmenter();
   var segments = segmenter.Cut(text);
   var freqs = new Counter<string>(segments);
   KeyValuePair<string, int>[] countAry = new KeyValuePair<string, int>[wordWeightAry.Length];
   for (int i = 0; i < wordWeightAry.Length; i++)
   {
       string key = wordWeightAry[i].Word;
       countAry[i] = new KeyValuePair<string, int>(key, freqs[key]);
   }
   StringBuilder sbr = new StringBuilder();
   sbr.Append("词语");
   sbr.Append(",");
   sbr.Append("词频");
   sbr.AppendLine(",");
   foreach (var pair in countAry)
   {
       sbr.Append(pair.Key);
       sbr.Append(",");
       sbr.Append(pair.Value);
       sbr.AppendLine(",");
   }
   string filename = "词频统计结果.csv";
   File.WriteAllText(filename, sbr.ToString(), Encoding.UTF8);
   Console.WriteLine("词频统计完成:" + filename);
   return countAry;
}

使用WordCloudSharp生成词云图,蒙版图必须使用黑白图片,记得手动引用System.Drawing,代码如下:


/// <summary>
/// 创建词云图
/// </summary>
/// <param name="countAry"></param>
static void CreateWordCloud(KeyValuePair<string, int>[] countAry)
{            
   string markPath = "mask.jpg";
   string resultPath = "result.jpg";
   Console.WriteLine("开始生成图片,读取蒙版:" + markPath);
   Image mask = Image.FromFile(markPath);
   //使用蒙版图片
   var wordCloud = new WordCloud(mask.Width, mask.Height, mask: mask, allowVerical: true, fontname: "YouYuan");
   //不使用蒙版图片
   //var wordCloud = new WordCloud(1000, 1000,false, null,-1,1,null, false);
   var result = wordCloud.Draw(countAry.Select(it => it.Key).ToList(), countAry.Select(it => it.Value).ToList());
   result.Save(resultPath);
   Console.WriteLine("图片生成完成,保存图片:" + resultPath);
}

运行测试

以本文为分析文本生成词云图,代码如下:


static void Main(string[] args)
{
   string text = File.ReadAllText("待处理数据.txt");
   var wordWeight = ExtractTagsWithWeight(text);
   var wordFreqs = Counter(text, wordWeight);
   CreateWordCloud(wordFreqs);
   Console.Read();
}

蒙版图如下:

C#中使用jieba.NET、WordCloudSharp制作词云图的步骤

词云图如下(使用蒙版):

C#中使用jieba.NET、WordCloudSharp制作词云图的步骤

词云图如下(不使用蒙版):

C#中使用jieba.NET、WordCloudSharp制作词云图的步骤

在得到关键词的词频信息后,通过在线工具网站生成词云图片会更加方便一点,如词云文字、图悦等。

参考资料

jieba.NET是jieba中文分词的.NET版本(C#实现)

TF-IDF算法和TextRank算法的分析比较

Python生成词云图

来源:https://www.cnblogs.com/timefiles/p/WordCloudCSharp.html

标签:C#,词云图
0
投稿

猜你喜欢

  • Java通过What、Why、How了解弱引用

    2021-11-01 00:06:20
  • 在java中ArrayList集合底层的扩容原理

    2023-12-19 11:12:15
  • 解读Spring-boot的debug调试

    2022-06-09 15:04:06
  • Java 多线程并发编程提高数据处理效率的详细过程

    2021-06-29 04:19:39
  • java解决动态配置字段需求问题

    2022-08-03 17:38:30
  • Java执行cmd命令的举例与注意事项

    2023-11-03 10:21:05
  • C#实现对AES加密和解密的方法

    2021-07-27 16:34:24
  • Java JDK 二分法 分析demo(推荐)

    2022-02-28 23:29:21
  • Java8新特性:函数式编程

    2021-12-01 03:09:02
  • 如何在MyBatis中实现DataSource

    2021-11-29 13:49:48
  • java抛出异常的几种情况小结

    2022-01-11 05:46:40
  • 一文详解Java中流程控制语句

    2023-11-26 11:39:49
  • 简单谈谈java自定义注解

    2021-07-21 18:40:53
  • Spring Security 控制授权的方法

    2023-08-06 19:21:08
  • SpringCloud消息总线Bus配置中心实现过程解析

    2023-02-14 10:05:18
  • c#中switch case的用法实例解析

    2023-09-20 23:02:51
  • SpringBoot多数据源配置详细教程(JdbcTemplate、mybatis)

    2023-08-26 01:59:33
  • Spring-Security对HTTP相应头的安全支持方式

    2021-07-25 16:30:55
  • 详解Java线程堆栈

    2021-06-29 03:37:38
  • JAVA如何调用wsdl过程详解

    2021-08-12 22:00:18
  • asp之家 软件编程 m.aspxhome.com