有什么免费好用的词频分析软件吗?
8 个回答
之前帮助我们英语老师做过一次高考2010年到2020年高考试卷分析,可能与你的英文词频分析需求类似,主要也是研究高考试卷的高频词
并且对有意义的高频词做了关联性分析
已经毕业多年了,因为一直在学习英语口语,一直和我们的英语老师保持联系,不胡扯了说下具体我是如何帮助老师分析的
高考试卷分析需求
1.高频词提取,单词还原成原型
2.对语法单词进行还原数据,查看语境
3.做高频词前500词云图
4.针对top20高频词做每个单词共现分析
当时想着自己跑数据,太费劲了,市面上肯定有相关产品,辅助了来吧,速度快点。
最后找到这款 英文分词软件当时还不支持这么多可视化呢,就是简单的词频统计
具体说下我怎么做的,我先从老师那要来他的英文数据,先对这些数据进行了基础的分词
如果对is、 a、 am 等1~2个字符的单词不感兴趣,干脆在单词长度位置,输入3过滤掉就行了,对高频词统计没什么意义
因为文本中包含中文,使用过程可能会有提示,忽略就行。
对于词频为5以下的词不感兴趣,直接在底部词频数量位置,过滤进行了。
也可以手动的取消勾选一些不关心的词和无意义的单词的。最后你可以下载词频统计结果,在有上边上面呢
这样我就帮助老师得到了一份高频词频表了,完成第一个任务。
我们可以点击右手边下面的蓝色按键就行了,我们看看会有什么好玩的东西
首先左侧我看到了我的文本数据基础信息,如文本大小呀、单词量、词汇量啦。中间是词性占比表、右侧是一个词频列表
可能对我们老师没啥用。
继续往下看,我们会看到高频词云图,估计他会展示给学生看,对他很有用,这个词云图单词太少,我重新给他做了一个美化的词云图。
下面的网络关系图老师可能不会关心,所以暂且不看,我们查看下,老师比较关心的高频词汇吧,例如比较级中的“more“,在词频表中点击这个词就行
我们可以先下载这里包含more的所有数据,后期分析单词关联共现有用
这个位置我们可以查看more具体在原文中的语境,还可以在老师给学生分析某个语法时,可用来的案例句子。
具体不在展开了。看你想怎么用都行。
我们在针对刚才下载的关于more的数据再次进行分词,步骤和上面一样,我就不重复说了
在下面的相关词云图中,是关于more的所有相关词了
我们这回在看看关于more的高频共现词和网络关系图吧
鼠标移动到单词身上会显示词频,点击单词连线会是共现次数,共现分析方法是研究单词之间的强弱关系的
距离远近是亲密关系的体现
最后老师的原形单词,可以用文本替换来实现,有个同义词词典就好了,就很容词实现了。
词频分析很多培训机构在教研时都会做,一些培训机构还会开出“教研公开课”,向学生、家长炫技,以示其教研过程的科学性和严谨性,以此推动卖课。
所以,网上搜一搜(比如百度文库)说不定能找到现成的高考词频统计,也许就不用自己做了。
介绍下我电脑里保存的两款吧,我原来在培训机构工作时用过。软件都有些年头了,因为我目前没有使用需求,所以一直没有更新。
AntConc,2006年时就有了。
还有一个叫ROST英语试卷单词分析
自己 python 了一个词频统计分析工具来用。
主要是结合结巴分词来做,稍加优化便可以实现更多的功能,比如百度推广关键词分组,英文分词等等
工具简单,分享给大家免费使用:
主要功能:
首先介绍一下分词工具的一些支持的功能:
- 『文本分析量』:我自己测试了大概500多万字符,没啥问题
- 『自定义词典』:支持
- 『停用词典』:支持
- 『是否支持英文』:支持
- 『分析准确度』:高
- 『词频数据下载』:支持,自动写入到 txt 文件
- 『生成词云图』:支持
使用教程(共 3 步):
下载之后会得到 3 个文件夹,一个 exe 格式的软件,如图所示:
重要提示:请勿修改文件夹名称及文件名称,否则软件无法正常运行~
第一步:『粘贴文本』—— 将要分析的文本放入 “2_分析”中的 txt 文件当中
这里举例,我放入了豆瓣线上活动的标题一共 3000个,均为参加人数超过1000人的活动
第二步:『运行程序』—— 双击运行 “keywords.exe”
软件会提示输入 3 个参数:①提取多少个高频词、②是否去掉单个字、③保存文件名称
如图所示:
这里我分别输入:20、1、豆瓣线上活动
分析完毕之后会生成一张词云图,点击保存按钮即可保存
第三步:『查看结果』—— 打开文件 “3_结果”下的 txt 文件
特殊功能说明:
在【1_配置】文件夹下有两个文件:停用词 与 自定义词:
- 停用词
- 自定义词
一、停用词
通常我们在分析文本的时候,会发现有很多词是一些常用词,对于词频分析来说意义并不大,比如英文中的 "a、an、the、of、for、on" 等等,中文中的 "的、地、得、不仅、而且、不然、它、他、她" 等等。
在分析大量文章的时候就会发现词频统计结果中有大量的这类词汇,真正有意义的词却被淹没在其中。因此停用词功能的主要作用就是去除掉这类的词汇。—— 目前我采用了 4 个停用词库的合并结果:
可以通过这里查看具体的词库: https://github.com/goto456/stopwords
- 中文停用词表
- 哈工大停用词表
- 百度停用词表
- 四川大学机器智能实验室停用词库
如果在做词频统计时发现有一些词虽然是高频词,但对于分析来说无特殊意义,添加到停用词表中即可(一行一个)
简单来说就是高频无意义,添加到停用词当中。
二、自定义词
比如有一些词具有行业特征或者是网络新词,比如有的行业当中 主攻文、主受文 是词,是不能被分开的,就添加到自定义词当中。
由于最近我自己也在做一些词库整理,所以默认在 自定义词表 当中添加了一些新媒体相关的词汇,比如:kol、新榜、5118、 完美日记、up主、博主、百大、b站、人人秀、代运营、媒想到 等词汇。
简单来说就是你认为应该是一个词的但是被工具拆分成了一个一个的字,就将词添加到自定义词当中。
最后,发一下下载地址:
『中文、英文词频统计分析软件』免费工具分享 – sougood
自己写的词频统计软件,觉得有用点个赞呗 ~
推荐一个小工具,词频助手。
功能:
1.英文单词统计。
2.对统计的单词进行翻译。
3.根据单词查看在文本中的分布情况。
4.支持添加过滤词。
5.支持单词词形还原统计。比如went统计为go. apples统计为apple.
注意,这个词形还原的功能是其他软件所不具备的。
大晚上的更新个状态。给之前的英语词频统计翻译软件修复一些问题。
1.增加支持pdf docx txt文档读取。
2.放弃美化,增加支持窗口缩放。
3.增加列表垂直滑块。
4.去掉选择颜色对话框。
5.布局调整。
链接: https://pan.baidu.com/s/1NORvKyq7ekO7zUgVyWccGQ 提取码: 36uu
不懂,这是网络搜索的结果:
有哪些软件可以进行中文词频分析?
我写了一个在线小工具,可以实现基本的英文词频统计功能。网址如下:
AntConc 可以,这是一款免费的语料库检索软件。得先把你搜集到的高考题目语料收集整理成语料库文本,然后导入进去,不过因为它不自带停用词表,得先提前在 settings 里的 global settings 中,找到 tool filters,勾选Cluster/N-Gram/Collocate/Word/Keyword/Wordcloud Results,然后把停用词表文件 add 一下,再勾选 hide words in files,apply 就 ok 了。
然后接着点击上方工具栏中的 word 选项卡,在其工作界面点击 start 就能生成词频表了。
官网网址如下: Laurence Anthony's AntConc
算凑统计
这个小工具,能统计汉字、词语、数字、单词出现频率。
优点:
速度快,10万汉字词频统计大概只需要1分钟。
能够提取关键词
能够总结中心思想(不过这个有点弱智)