文本挖掘之词云热点与LDA主题分布分析万

白癜风专家有哪些 https://wapjbk.39.net/yiyuanzaixian/bjzkbdfyy/nvxbdf/

一.词云技术

首先,读者可能会疑问什么是词云呢?词云又叫文字云,是对文本数据中出现频率较高的关键词在视觉上的突出呈现,出现频率越高的词显示得越大或越鲜艳,从而将关键词渲染成类似云一样的彩色图片,感知文本数据的主要主题及核心思想。

1.词云

“词云”就是对网络文本中出现频率较高的关键词,予以视觉上的突出,使浏览网页者只要一眼扫过文本就可以领略文本的主旨,主要利用文本挖掘和可视化技术。个性化词云既是研究分析内容的一种表现方式,又是广告传媒的一种“艺术品”。在Python中,通过安装WordCloud词云扩展包可以形成快速便捷的词云图片。词云可以使关键词可视化展现,更加直观、艺术。

图1是关于文学文章的词云分析结果。首先对一些文章进行词频统计,然后绘制对应的图形,其中“文学”、“小说”、“中国”、“历史”等字体显示较大,表示这类文章的出现频率较高;而“金融”、“绘画”、“悬疑”字体较小,表示它们出现的频率较小。图2是对某些编程技术文章的词云分析结果图,从图中词云分析可以看出这些技术文章的热点话题有图形学、算法、计算机、编译器等,热点技术有Android、Python、ReactOS、SQL等,同时该图呈现了一定的形状。

前面讲述了词云的效果图,由于其炫酷的效果,很多广告公司、传媒海报都利用该技术进行宣传。下面将讲解Python调用WordCloud库进行词云分析,图3是词云分析的算法流程,包括读取文件、中文分词、词云库导入、词云热点分析和可视化分析。

2.安装WordCloud

安装WordCloud词云扩展包主要利用前文常见的pip工具包,同时Python处理中文语料需要调用Jieba结巴分词库进行中文分词处理,则需要安装Jieba扩展包。

pipinstallWordCloudpipinstalljieba

安装过程如图所示。

注意:在安装WordCloud过程中,你可能遇到的一个错误“error:MicrosoftVisualC++9.0isrequired.Getitfrom


转载请注明:http://www.aierlanlan.com/tzrz/6890.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了