有哪些软件可以进行中文词频分析?
23 个回答
在现实生活中,人想做词云,也有了关键词的数据但自己又不会做词云可怎么办,我给大家推荐几款词云制作工具,让你瞬间呈现美观、酷炫的词云可视化。我们先来看看国外的词云制作工具:
1、Wordle
工具地址: http://www.wordle.net/
Wordle是一个用于从文本生成词云图而提供的游戏工具。云图会更加突出话题并频繁地出现在源文本,你可以调整不同的字体,布局和配色方案等样式。做完词云图,你可以打印出来或储存。
2、WordItOut
工具地址: http://worditout.com/
WordItOut的操作简单,进入网站后只需要输入一段文本,然后就可以生成各种样式的“云”文字。用户可以根据自己的需要对WordItOut进行再设计,比如颜色、字符、字体、背景、文字位置等,保存下载后,可以复制。
但是WordItOut是不识别中文的,如果输入中英混合的文本,保存后只显示英文字体,对于不懂英文的同学是比较痛苦的。
3、Tagxedo
工具地址: http://www.tagxedo.com/
Tagxedo有几大优点:强大的导入功能(可导入网页、文字等)、自定义设置词云形状(这个真心好)、可导入想要的字体、颜色主题多(各种选择)等。最重要的是它支持中文哦,你可以根据自己的喜好进行设置字云respin和respin,是一款很不错的词云的制作工具。
4、Tagul
工具地址: https://tagul.com/
Tagul云可以自定义字体、词云的形状(有爱心、BUS、雪人、人像、UFO等),颜色等,做出来的词云图很酷炫,为网站访问者提供良好的用户体验。用户可以在网站做好词云图,然后印在衣服、杯子、鼠标垫等地方,自己设计身边的物件,感觉很有成就感,很实用的网站。
5、Tocloud
工具地址: http://www.tocloud.com/
ToCloud 是一个在线免费标签云生成器,你可以设置词的长度和频率。ToCloud也非常好用,它能提取短语,是一个比较好的标签云工具之一利用词频生成词云,你可以快速了解页面优化了某些单词。
现在,来两款国内的数据产品,绝对国产,请接收。
1、图悦
工具地址: http://www.picdata.cn/
这款国内的在线词频分析工具,在长文本自动分词并制作词云方面还是很出众的,而且也容易上手,还可以自定义定制图形模板:标准、微信、地图等,切换自如,用起来体验很不错。
但是图悦在导出excel词频有一些不足的地方,不介意的话可以忽略。
2、BDP个人版
工具地址: https://me.bdp.cn/home.html
这是一款数据可视化分析工具,除了词云图,还有很多其他酷炫的数据图表,如GIS地图、漏斗图、瀑布图、桑基图、矩形树图等,都可以通过拖拽生成。BDP很容易上手,直接把词语这个数据拉到维度栏,再选择词云就瞬间呈现词云,BDP会自动算好词频,不需要你手动计算,快速实现词云可视化,特别简单。做好的词云还能导出~
不足之处,不是专门制作词云的工具,但是还有几十种图表供你使用,是一款不错的数据可视化分析工具。
这么多款工具大家自行选择吧,感兴趣的话都可以试试,会有很多有意思的发现,原来词云(词频)可视化是如此简单。
词频统计的软件市面上挺多的,但是能辅助进行词频分析的软件那就少之又少,那么我今天来引荐一款两者可兼得的中文词频分析软件
文本分析词频统计工具
微词云·在线文本分词词频统计分析
我就借用来自知乎的热门问题“现在的部分女性为什么不想生孩子”,用微词云在线分词工具进行词频统计与分析,直接上实战演练。
我的文本大小:4.35M纯文本;文字总数:2246390;回答人数:5000+。
我们来说下报告词频统计与分析过程吧
01.内容文本导入
首先我们进入到微词云的分词文本导入
我是直接把抓去下来的问答内容变换成了txt文本,一键上传文本的形式。
目前微词云文本最大导入量是10M的纯文本大小,太大的文本系统会自动帮助拆分,文本过大分析确实会慢一些,因为分出的关键词会非常的庞大。
文本配置
配置1:如果你想提取“现在的部分女性为什么不想生孩子”文本中最大的关键词数量,可以把单次提取量配置为【返回所有单词】这是单词提取量最大的配置;如果你只是想提取高频词,其他低频词不关心的话,那么你的单词返回数量在500~1000之间足够了
配置2:有时候我会不勾选顶部的【去掉未知词性】,未知词性一般是“不在系统默认的词典范围内”的词性。
配置3:后面在说关于右侧的【自定义词典】功能,这个功能非常的棒,可以直接自定义你关心的关键词(避免系统把你关心的词拆分开来),可以大大提高文本关键词提取的准确性
02.筛选单词
筛词方法有四种
第一种:通过单词【词频大小】过滤掉一些单词,配置好一定选择【提交】按钮
第二种:通过左侧【词性列表】进行筛选需要的单词,并【打勾】
第三种:通过搜索单词进行细致的筛选单词
第四种:通过右侧的大面板进一步的筛选需要与过滤掉的单词,确保单词筛选无误
我每次的筛词顺序也基本上都是这样的,筛选单词的过程对接下来的分析很重要。
切记一定要提前下载自己的分词结果,防止数据丢失。
【下载分词结果】在右侧顶部位置处
最终通过这几种方法帮我筛选出80多个自定义词,自定义词为单个字的词,如果在导入内容时勾选了过滤单个字时,是没办法帮你分出来单个字的自定义词的,这一点大家要了解下。
如果发现你明明自定义了80个自定义词,在筛词页面发现只有60多个自定义词呢,一般是因为系统词频数过滤导致的,直接把你的低频词自定义词给过滤掉了。
解决办法就是;可以取消勾选词频过滤功能,并点击提交按钮即可。
03.得到报告并分析
筛词完成后,点击右下角的【确定使用所选单词并生成报告】
top20热词
一目了然,文本主题一下子就出来了,孩子,自己,生孩子,女性,我们,生活,父母,问题,结婚,老公,工作,他们,生育,妈妈,女人,家庭,选择,小孩,怀孕,社会
我筛选的词云相关图
鼠标移动到任意关键词身上会显示词频数,此处即是一个交互词云图,也可以直接点击关键词查看所在为文本位置以及与其他的词相关性
其实不难看出大家为什么大部分人不想生孩子,工作事业、社会、时间、教育、责任、经济、痛苦、压力、影响生活、付出、自私…
top30单词相关性
分析孩子关键词
(1)我们先搜下孩子这个关键词,都可以看到什么结果
在搜索结果中我们直接点击生孩子,看看大家都提到了什么
大家说了自己生孩子的痛苦、工作忙社会也没有给女人生孩子的时间、不想承担责任、对女性不公平、被忽略、经济承受不起、现代人生孩的观念改变、婚姻的不稳定等
分析结婚关键词
我们直接搜索结婚这个关键词,看看都提取了哪些关键词
我们在看看大家对结婚与婚姻的看法是什么
为什么很多女性发声不想结婚,更多的是一种婚姻意识的觉醒,不想将就过一生;父母家庭婚姻的不健全多多少少都会给孩子的婚姻观造成影响,其实中国的婚姻社会是很不健全的,畸形的社会
我想不仅仅是女性不想结婚,也会有很多的男性不想结婚吧;然而不得不说,社会普遍现象,男性没房没车,很难找到老婆。婚姻非要增加上这层物质,也不会给男女的爱情婚姻上增加长久的幸福吧。
结尾总结
其实我们还可以单独的分析情感类的词或者某一类的词性关键词,可以从不同的维度进行分析文本;这里不得不在提出来,自定义词语筛词过程真的很重要,虽然话的时间成本比较高,但是文本分析的结果会更加的精准,可以挖掘更深层的内容
微词云中的关键词定位以及搜索关键词功能大大提交了词频的分析,一款值得信任的文本分析工具加上人工的分析会赋予文本分析新的灵魂。
ROST是目前比较方便的中文词频分析软件,但是如果用软件自带的分词功能的话,在准确性上会有些问题。
另外,AntConc可以用来做英文词频统计,据说是可以修改编码设置来做中文词频统计,没试过。QDAMiner是比较专业的内容分析软件。
无论工作还是生活中,对于数据分析的需求越来越大,比如淘宝店铺的评论,行业分析与关键词挖掘,大学生论文报告等等,对于数据分析必不可少的就是做词频统计,虽然分词工具很多,但是分词又准确,又能支持自定义词典,支持分词文本量又大,支持筛词和美化词云图的工具还真的不多,今天就介绍一款目前为止我觉得最好的一款词云工具 微词云
微词云是一款在线工具,无需下载安装,在浏览器直接使用,微词云支持文本量100W+,自定义词典,通过词性批量筛词,生成美化词云图等
微词云不仅能进行分词,还可以对分好的单词得出分析报告,里面包含:词性占比图,相关词词云图,词频排名前30单词关系图,词性排名柱状图,以及点击每个单词都可以看到这个单词所有所在位置以及关联词。
使用方法
在微词云首页进入文本词频统计
可以选择文件导入也可以直接复制粘贴文本,分词前看需求勾选是否去掉单字,是否去掉未知词性,是否计算相关性等,如果有相关特殊行业词怕被分开,点击自定义词典,把需要保留特殊行业词输入到自定义词典当中,都准备完毕点击下一步即可。
如果是单纯的词频统计到这一步就可以直接就可以直接筛词下载即可,如果对低频词不关心,可以在左下角填写数字快速把低频词忽略掉,然后根据需求下载筛词结果或者分词结果,如果要得出分词报告或者制作成可视化词云图请点击确定使用所选单词,并生成报告。
分词报告里面了包括分词后的统计信息词性占比扇形图
相关词词云图,美化词云图,需要生成词云图的点击美化词云图即可
美化前
美化后
词频排名前30单词关系图,点击单词可查看与其相关的单词和这个单词在文本中所有所在位置
词性排名柱状图
在单词列表点击不同的单词,可以根据所选单词和其有关词的单词生成单独的词云图,有需要词云图选择美化词云图即可
工具地址:
在线词频、语义、情感分析工具试用心得_图文_百度文库
①图悦: http://www.picdata.cn/
②大数据搜索与挖掘平台:
http://ictclas.nlpir.org/nlpir/
③腾讯文智: http://nlp.qq.com/semantic.cgi
里面简单介绍了如何用这三个网址进行中文词频分析。
,NLPIR-Parser历时 20余年,为一般用户提供了本地化部署的客户端实现语义智能分析的全链条一站 式服务,也为软件工程师提供了二次开发接口。NLPIR-Parser平台包含精准采集, 文档格式转换、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实 体、智能过滤、情感分析、文档去重、全文检索和编码转换十三项独立功能,涵 盖了从数据的采集预处理、自然语言处理到文本挖掘、信息检索再到可视化呈现、 结果导出等全链条各个环节的语义分析工具。
中文词频功能的具体介绍
语言统计功能针对切分标注结果,系统可以自动地进行一元词频统计、二元 词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自 动给出相应的英文解释。词频统计及翻译分析结果有四个Excel输出文件。其中, 一元概率指的是单个词独立出现的概率,信息熵指的是该词包含的信息广度,其 公式为:H(X)=–∑P(X)logP(X)。 n 1
(1)按词频排序的统计结果文件 按词频排序的统计内容如下,包括:词语、词性、词频、一元概率、信息熵 与译文。
(2)按字典排序的词频统计文件 输出到一个名为FreqSortByWord的文件,按字典排序词频统计结果包括:词 频统计结果(总词数与平均频率)、词语、词性、词频、一元概率与信息熵。
(3)Bigrams输出文件 输出到一个名为Bigrams的文件,Bigrams结果包括:二元词对总数、前一个词、 后一个词、共现频次与二元词对信息熵。共现频次指的是两个词以前后顺序同时出 现的频率,二元词对信息熵指的是这两个词包含的信息广度。
(4)文件统计信息输出文件 文件统计结果包括:文档名、总词频、总词数、用户词典总词频与用户词典 总词数。
tanglib知识库,搜索任意关键词都会显示词频:
如上图所示,人工智能在cctv新闻联播库中的词频是650,搜索任意词都会显示词频。
例如 关键词”区块链“ 在新闻联播库中数据如下:
2016 年:0 天
2017 年:2 天
2018 年:2 天
2019 年:7 天
2020 年:14 天,区块链技术棘手可热
2021 年:14 天,区块链技术棘手可热
2022 年:5 天
2023 年:0 天
从关键词的频率可以了解到政府对相关行业的关注情况。
越来越多的人开始意识到词频统计的重要性:
比如一个做插画自媒体新人,想要了解插画在小红书都有哪些高频的需求,于是获取了1000篇关于插画的笔记,统计其中的高频词,便知道需要更新什么方向上的内容才能收货粉丝、流量;
又比如你想知道一个社区为什么活跃,有哪些运营套路可以参考,可以获取社区中几千个标题,经过词频统计分析便能够知道大家都集中讨论什么样的话题,也能够快速了解运营一个社区都有哪些可能的玩法...... 小到分析一篇文章,大到舆情分析,几乎都有词频统计的身影。
对比了一下市面的词频统计工具,发现几个问题:
分析的量受限制
功能不太齐全,比如自定义方面
大部分都是收费的工具
一些简单的功能其实excel就能搞定
于是,还是决定自己 python 一个词频分析工具来用。
主要是结合结巴分词来做,稍加优化便可以实现更多的功能,比如百度推广关键词分组,英文分词等等
工具简单,分享给大家免费使用:
下载地址 :
链接: https://pan.baidu.com/s/1pyX6cyBMnrkjKWVVPb_1yg
提取码: dx59
主要功能:
首先介绍一下分词工具的一些支持的功能:
- 『文本分析量』:我自己测试了大概500多万字符,没啥问题
- 『自定义词典』:支持
- 『停用词典』:支持
- 『是否支持英文』:支持
- 『分析准确度』:高
- 『词频数据下载』:支持,自动写入到 txt 文件
- 『生成词云图』:支持
使用教程(共 3 步):
下载之后会得到 3 个文件夹,一个 exe 格式的软件,如图所示:
重要提示:请勿修改文件夹名称及文件名称,否则软件无法正常运行~
第一步:『粘贴文本』—— 将要分析的文本放入 “2_分析”中的 txt 文件当中
这里举例,我放入了豆瓣线上活动的标题一共 3000个,均为参加人数超过1000人的活动
第二步:『运行程序』—— 双击运行 “keywords.exe”
软件会提示输入 3 个参数:①提取多少个高频词、②是否去掉单个字、③保存文件名称
如图所示:
这里我分别输入:20、1、豆瓣线上活动
分析完毕之后会生成一张词云图,点击保存按钮即可保存
第三步:『查看结果』—— 打开文件 “3_结果”下的 txt 文件
特殊功能说明:
在【1_配置】文件夹下有两个文件:停用词 与 自定义词:
- 停用词
- 自定义词
一、停用词
通常我们在分析文本的时候,会发现有很多词是一些常用词,对于词频分析来说意义并不大,比如英文中的 "a、an、the、of、for、on" 等等,中文中的 "的、地、得、不仅、而且、不然、它、他、她" 等等。
在分析大量文章的时候就会发现词频统计结果中有大量的这类词汇,真正有意义的词却被淹没在其中。因此停用词功能的主要作用就是去除掉这类的词汇。—— 目前我采用了 4 个停用词库的合并结果:
可以通过这里查看具体的词库: https://github.com/goto456/stopwords
- 中文停用词表
- 哈工大停用词表
- 百度停用词表
- 四川大学机器智能实验室停用词库
如果在做词频统计时发现有一些词虽然是高频词,但对于分析来说无特殊意义,添加到停用词表中即可(一行一个)
简单来说就是高频无意义,添加到停用词当中。
二、自定义词
比如有一些词具有行业特征或者是网络新词,比如有的行业当中 主攻文、主受文 是词,是不能被分开的,就添加到自定义词当中。
由于最近我自己也在做一些词库整理,所以默认在 自定义词表 当中添加了一些新媒体相关的词汇,比如:kol、新榜、5118、完美日记、up主、博主、百大、b站、人人秀、代运营、媒想到 等词汇。
简单来说就是你认为应该是一个词的但是被工具拆分成了一个一个的字,就将词添加到自定义词当中。
最后,再发一下下载地址:
链接: https://pan.baidu.com/s/1pyX6cyBMnrkjKWVVPb_1yg
提取码: dx59
自己写的词频统计软件,觉得有用点个赞呗 ~
进行中文词频分析,其实就是制作词云图(标签云,叫法不一),词云的操作也很简单。
上传需要分析的数据后,在图表编辑界面将分析的文本字段拖到维度栏,选择“词云”即可。在BDP中,词频是不需要事先计算好,这太麻烦,导入的文本词会自动形成词频的。
若不能让关键词被分词,勾掉“智能分词”即可~ 这里选择紫色,颜色都可以修改的。
对了,词云还可以进行数据下钻,比如点击“儿童”这个词,还能看到此关键词背后的城市购买情况,如下图,能更深入了解数据的详情,更加及时挖掘数据背后的规律和价值,让数据更多付诸于工作和经营。
还有3D词云动态效果,动态效果截图展示不了,可见此: 3D词云动态效果(点击“儿童”等词可查看数据下钻效果)
词云就这样搞定了,歌词、网络小说等数据都可以上传到BDP上,进行一个词频分析的,若不会的话可以问我哈!
政府工作报告作为地方政府最重要的官方法律文本之一,较为系统、全面地总结了政府过去一年的工作和制定本年度的工作计划。基于政府工作报告文本数据,卢盛峰等(2020)借助计算机文本分析技术,定量识别了中国地方政府财政治理特征及其动态趋势;詹新宇(2020)搜集中国省、市两级政府工作报告里的GDP计划增长目标并进行系统GMM估计,发现财政分权通过不同程度地推动基建投资、房地产投资以及工业化进程,促进了经济增长目标的实现,进而推动实际经济增长。
另外,通过挖掘政府工作报告中的数字经济、碳中和、绿色环保、基本公共服务、城市综合治理、科技创新与人才等词频,可以对政府环保注意力、数字经济发展、城市治理注意力等方面进行研究。
今天推出最新的全国,省,市三级政府工作报告文本数据,可供相关词频研究使用。
1、数据名称:最新版政府工作报告原文
2、数据范围:国,省,市三级。
3、年份跨度:
全国的年份是(1954-2023)
省的政府工作报告年份是(2002-2023)
地级市的政府工作报告年份是(2003-2023)
4、数据说明:
国家级和省级数据无缺失。
地级市280个城市左右,因年份久远,存在一些缺失。2003年以后的完整度95%,2005年以后的完整度97%,2008年往后的完整度99%。不影响计量分析。
5、整理过程:
部分为爬取,大部分是手工整理,还有百分之5左右是网上的付费文档,有百分之10左右是从我们文献中心库存的报纸上扫下来的。所有的均已整理为txt格式,可以直接爬取统计词频。各平台上的报告都买过,完整度很低,此为综合整理自用版。
6、文件截图:
地级市文件有分省版,也有不分省平铺版
7、其他福利:本号将在近期推出python词频分析代码和课程,凡参与此次众筹的用户可在后续推出的基于此文本数据的词频分析及过程辅导享有折扣价格。
Tips:请点击下方咨询卡片,为避免不必要的等待,请务必先阅读咨询简介(有急速回复方式并可免咨询费)
我们主要提供数据处理服务以及科研辅导,咨询对象为在校本硕博和科研工作者,主要目的是帮助您低成本快速获取科研所需数据,节省时间和经济成本。
参考文献:
[1]詹新宇,刘文彬.中国式财政分权与地方经济增长目标管理——来自省、市政府工作报告的经验证据[J].管理世界,2020,36(03):23-39+77.DOI:10.19744/j.cnki.11-1235/f.2020.0032.
[2]卢盛峰,李晓淳,卢洪友.地方政府财政治理特征研究:来自中国政府工作报告文本识别的经验证据[J].财政研究, 2020(4):16.DOI:CNKI:SUN:CZYJ.0.2020-04-010.
[3]文宏.中国政府推进基本公共服务的注意力测量——基于中央政府工作报告(1954—2013)的文本分析[J].吉林大学社会科学学报,2014,54(02):20-26+171.DOI:10.15939/j.jujsse.2014.02.012.
用语料库在线吧,切词非常准确。试了上面的几个回答的线上网站如悦图啥的,切词不行。
http://corpus.zhonghuayuwen.org/contactus.aspx
算筹词频分析工具
可以统计2个字的词,3个字的词,4个字的词。废话不多说,上图
题主说到的这个词频分析,我在上学的时候也听老师提到过,分析的是《天龙八部》中出现的高频词。涉及到与中文文字相关的词频分析,比较建议使用词云图,就比如下面这张图展示的这种,文字越大,占的面积越多,那么说明这个词汇出现的频率就越高。这样可以非常一目了然的看到一篇文章中的高频词汇是哪些。
这种词云图在一些将可视化做的比较好的BI产品中是比较常见的。当然,上面这张图是用DataFocus做成的,操作起来非常简单快捷,这里给大家展示一下。
这就是我利用DataFocus制作词云图的整个过程了,其他BI工具也是可以的,但是我没有研究过。不过有一点需要提醒,我的数据是现成的,如果题主要进行网络小说的词频分析,你首先需要利用软件将所有的小说文字爬取下来,然后才能利用BI工具进行分析的。
1.rost cm6 武汉大学开发的一款软件,当然在统计的时候需要先进行分词处理
2.citespace 这个一般是处理结构化数据的,比如论文关键词、德文特手工代码等,生成图谱的同时也能对词频进行统计
3.Python 这个还是普适性强一点,比如针对非结构化的文本,像中文的可以直接拿来调用jieba模块进行分词。预处理之后,找一段词频统计的代码跑一下就ok了