阿里舆情︱舆情热词分析架构简述(Demo学习)

63 篇文章 33 订阅
订阅专栏

本节来源于阿里云栖社区,同时正在开发一个舆情平台,其中他们发布了一篇他们所做的分析流程,感觉可以作为案例来学习。文章来源:觉民cloud/云栖社区

平台试用链接: https://prophet.data.aliyun.com/hotword?spm=5176.100239.blogcont68813.6.QB2AAc&isDemo=true

这里写图片描述

一般热词分析历经:分词、关键词提取、词关联计算、热度计算

一、分词

主要是词包大法,你懂得,阿里词包都不用自己写,本身一大堆啊!!!厉害了word哥:公众趋势分析背后有百万级的人名、品牌、地址、组织机构名、商品、品牌词库等做支撑。
万能词包啊!!!
.
.

二、关键词提取

如何在一篇长文本中挑出关键词呢? 在一定程度也就是等于找词权重,一种衡量一个句子里面词语重要性指标,其他方法可见博客:
NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重)
那么,该舆情平台使用的是:TextRank算法为文本生成关键词。

TextRank的算法思想来源于PageRank,旨在通过文本中句子、词之间的相互投票,为句子、词进行权重的排序。PageRank假设一个网页的入链越多,则其权重越高。随机地为每个网页分配一个初始权重,在每一轮投票中,每个网页将其权重均匀地分配给其出链,收敛后(平稳马尔科夫过程)每个网页得到的权重值反映了其重要性,每轮投票的数学表述为:

这里写图片描述
其中d为阻尼系数,(1-d)/N表示每次页面转移时有一定的概率会从全网随机选择url,这样可以避免没有外链的悬挂网页让所有权重收敛到0。

PageRank通过页面之间的链接关系建立投票机制,TextRank以此为启发,通过词之间的邻近关系建立词权重投票机制,即假如两个词出现在同一个窗口中,则它们之间产生一次权重投票,这样可以通过PageRank的求解方法,计算每个词在文本中的权重。得到权重的排序之后,就可以挑选topN词作为关键词了。
这里写图片描述

.
.

三、词关联计算

词关联计算也可以使用社交网络的方式(点出度、点入度等,参考: R语言︱SNA-社会关系网络
R语言实现专题(基础篇)(一)),也可以使用一些统计学的方式(互信息,
NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重))。

该平台使用的是互信息.
词关联使用点互信息PMI(pointwise mutual information)来表示,用信息论的语言来表述,点互信息衡量的是“给定一个随机变量后,另一个随机变量不确定性的减少程度”。假设有两个词x和y,则x和y之间的点互信息由下述公式表示:
这里写图片描述
其中p(x,y)表示x和y同时出现的概率,p(x)和p(y)分别表示x和y单独出现的概率。简单粗暴地理解,就是说相对于单独出现,某两个词更喜欢一起出现,则它们之间的关联程度越高。

.
.

四、词热度计算

词的热度计算不能仅仅统计这个词在所有文章中的出现次数,因为每篇文章的热门程度不一样,汪峰上了头条时的报道,对于热度的计算不能跟一般的小道消息同日而语。热词分析在计算热度时,会用文章的热度对词进行加权,而文章的热度会综合考虑以下因素:
文章的转发量
浏览量
评论量
文章发布的时间,如果发布时间越长,则热度衰减地越高
具体的计算公式就不在这公开了,那是我们经过无数次的调试之后的结果,有兴趣的读者也可以了解一下这篇文章: http://www.smartinsights.com/social-media-marketing/facebook-marketing/how-to-use-facebook-edgerank/?spm=5176.100239.blogcont68813.7.0MuQOh

Python实现的天气预报APP舆情热词分析程序.zip
06-22
资源包含文件:设计报告word+项目源码+项目截图 1.制作一个天气预报应用程序:输入城市名称,给出当天天气情况,并用图文并茂形式展示出来。 2.制作一个简单的舆情热词分析程序:输入监测的新闻网站列表,通过分析导出当前最热门的新闻词汇,并用图文并茂的形式展示出来。 操作系统: Linux 5.10.0-1-amd64 #1 SMP Debian 5.10.4-1 (2020-12-31) x86_64 GNU/Linux Python环境: Python 3.9.1+ (default, Jan 10 2021, 15:42:50) [GCC 10.2.1 20201224] on linux 详细介绍参考:https://blog.csdn.net/sheziqiong/article/details/125415640
python题库刷题网站_python在线刷题网站
热门推荐
weixin_39944638的博客
12-01 1万+
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台;社区覆盖了云计算、大数据、人工智能、IoT、云原生、数据库、微服务、安全、开发与运维9大技术领域。","link1":...
哈尔滨一司机威胁辱骂乘客事件舆情分析报告
最新发布
Chane555的博客
03-08 75
2月2日,黑龙江哈尔滨,网友发视频称,在哈尔滨旅游打车时网约车司机接了更贵的订单,想取消自己订单,但因取消订单会被网约车平台扣钱,便辱骂威胁游客。该视频在网络传播,引起热议。对此,哈尔滨当地交通局表示正在核实。
会议交流 | 知识图谱前沿技术与热门应用
开放知识图谱
03-22 1210
长按上图或点击『阅读原文』免费报名随着人工智能技术的发展与应用,知识图谱作为AI进步的阶梯越来越受到学术界和产业界的重视,并且已经在很多领域、场景中体现出自身的价值。从最初的互联网搜索、推...
创新实训【16】——热词分析图表展示
weixin_43710646的博客
05-23 1404
主要内容 这篇主要记录了热词分析的图表展示,从数据库中获得了讨论次数最多的10个热词,使用echarts的扇形图和条形图展示了热词和数量。 展示内容 主要步骤 1.在前端用div展示图表的宽度和高度。 <template> <div> <div> <!-- 为 ECharts 准备一个具备大小(宽高)的 DOM --> <div id="main1" style="width:45
阿里云解决方案架构师张平:云原生数字化安全生产的体系建设
云布道师
07-26 1143
2022 年 6 月 17 日,阿里云用户组(AUG)第七期活动在合肥举办。活动现场,具有十多年安全生产经验的阿里云云原生团队解决方案架构师张平,向参会企业代表分享了阿里云安全生产的产品和服务体系。本文根据演讲内容整理而成。...
社交媒体用户热词挖掘与情感分析:Python、NLP与Flask的综合应用
OverlordDuke的博客
12-26 993
特别是通过大屏可视化的创新设计,用户可以更生动直观地了解当前热点话题,为用户提供了更加全面的社交媒体数据挖掘体验。本文将介绍一种基于Python技术、NLP模型以及Flask框架的社交媒体用户热词挖掘系统,通过爬取社交媒体中的文本数据,实现对微博网站采集到的相关信息的清洗、筛选、分词以及分析,并将分析结果存储到数据库中。利用可视化技术,制作高频词汇的词云,以直观的方式展示当前热点话题,使用户更容易理解和把握信息。对爬取到的社交媒体文本数据进行清洗,去除噪音信息,然后利用NLP技术进行分词,提取关键词汇。
python 热词分析_Python笔记:热词分析2020-01-01
weixin_35953844的博客
01-28 1940
热词分析在公众趋势分析舆情分析有很宽广的应用,我们来看看怎么从一个TXT文件中分析出文章的热词出来,我们采用流行的第三方“结巴”包来实现。首先安装第三方包(matplotlib,jieba,wordcloud,numpy)mmatplotlib主要来绘制热力云图,jieba来做热词分析,wordcloud词云展示,numpy做多维数组处理。网上弄段代码:import matplotlibimpo...
热词的识别与提取算法
lionzl的专栏
09-18 8413
1.什么是热词 热词特点: 1.某一时间段内起点低,增长迅速 2.具有很强的延续性,和热词相关的其他词也被报道 3.热度随着时间的流逝而改变 2.热词排名计算的两种方法 热词排名方法一:贝叶斯平均法(Bayesian average) 先来理解一下利用贝叶斯统计算法的公式: WR是每个词的加权得分,WR越大表示热度越大 R是该词汇的平均得分(这里设定都为1) v是...
舆情中的热词分析,没你想的那么简单
weixin_33893473的博客
01-16 1290
背景 阿里云公众趋势分析产品通过云服务的方式,将阿里巴巴成熟的舆情分析技术共享给广大开发者。热词分析是公众趋势分析最近刚刚上线的功能,用户反馈效果还不错。这个功能听起来很简单,不就是对数据源进行分词,然后再统计一下热度么?No!它可没那么简单。 分词和实体识别 良好的分词是热词分析的基础。对于绝大部分分词工具来说,最大的挑战在于识别从未见过的网络热门词、...
大数据处理的一些总结和应用(有关舆情监控)
weixin_34198762的博客
04-28 454
说到大数据处理可能大家都不会陌生,这是近年来非常火热的话题,各行各业都想借助大数据为自己助力,有了这个工具,就好像在飞机上看农田一般清晰,一目了然,也也就是业内人士常说的大数据提供了一个------上帝视角 大数据的概念: 1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的时间内达到撷取、管理、处理并整理成为帮助企业经营决策...
nlp最全中文情感和语义词库
02-28
自然语言处理情感分析 舆情监测 需要用到的最全中文情感和语义词库
基于NLP的舆情监控系统.zip
07-19
【计算机课程设计】基于NLP的舆情监控系统, 用户具有用户登录、新闻评论、个人信息查看、修改等功能。管理员具有新闻管理、个人信息管理、舆情监控等功能,使用前请务必查看说明文档
新浪微博中的_上海垃圾分类_议题_省略_on_Snow_NLP的舆情分析_李丹妮.pdf
11-20
本文依托新浪微博2019年6月12日至7月1日期间共计1.7万条微博博文,以python语言在情感分析中的应用为基础,对"上海垃圾分类"的相关讨论展开舆情分析。研究发现:网民对垃圾分类的讨论整体上是正面态度,并且呈现出波动向好的局面;对垃圾分类的讨论议题具有多元化、理性化的特点,对上海市实行垃圾分类规定的负面情绪化表达并不显著。
基于大数据的舆情分析系统架构-架构
01-27
互联网的飞速发展促进了很多新媒体的发展,不论是知名的大V,明星还是围观群众都可以通过手机在微博,朋友圈或者点评网站上发表状态,分享自己的所见所...商家的产品设计者需要汇总统计和分析各类平台的数据做为依据,
python 热词分析_Python 爬取 热词并进行分类数据分析-[简单准备] (2020年寒假小目标05)...
weixin_34194499的博客
02-03 1141
日期:2020.01.27博客期:135星期一【本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)】今天问了一下老师,信息领域热词从哪里爬,老师说是IT方面的新闻,嗯~有点儿意思了!我找到了好多IT网站,但是大多数广告又多,名词也不专一针对信息领域,所以啊我就暂且用例一个相对还好的例子:数据来源网址:https://news.51cto.com/(最终不一定使用此网站的爬取数据...
详解阿里云移动云ApsaraMobile,首建云上开发者闭环
weixin_34054931的博客
08-23 96
阿里云移动云ApsaraMobile是沉淀了阿里巴巴多年移动互联网开发的经验与移动中台的核心技术能力,为广大开发者输出稳定,弹性,安全,快速的移动应用基础设施,帮助开发者构建起工程化,系统化,智能化的企业级移动互联网研发体系。移动云包括了公有云,专有云,以及解决方案三个板块,共计11款产品与解决方案,为开发者提供了移动应用完整生命周期的服务,将阿里巴巴集...
微博热搜算法
08-24 2961
近日,部分社会热点事件受到网友广泛关注和讨论,有网友对微博热搜榜单管理和细则产生误解。热搜设立至今,始终致力于提供最新鲜、最热门的资讯,提升用户发现微博热点的效率。如今,社会各界和广大网友对热搜提出了更高的期许,有关热搜的恶意揣测和谣言屡禁不止。为消除疑惑,澄清“花钱撤热搜”、“花钱压热搜”等不实传言,现将站方有关热搜的相关规则公布如下: 一、产品规则:热搜榜单是如何形成的 微博热搜根据微博用户的真实行为进行计算,实时发现微博平台内正受到广泛关注的热点内容,并形成实时榜单。 1、被大量网友搜索和讨论的关键词
用ELK 实时处理搜索日志
千丈之松的专栏
01-27 6413
本来这块业务 是放到SolrCloud上去的 , 然后 采用solr的facet统计查询, 具体代码参考之前写的文章:http://blog.csdn.net/hu948162999/article/details/50162643    最近遇到SolrCloud 遇到一些问题。。查询db时间过长,SolrCloud的长连接CloudSolrServer老timeout,索引的效率也不够满
高校舆情分析系统的架构设计
04-09
感谢您的提问。高校舆情分析系统的架构设计主要包括数据收集模块、数据处理模块、数据分析模块和数据可视化展示模块。数据收集模块负责采集各种媒体平台上的相关信息;数据处理模块对采集到的数据进行清洗、过滤、转换等处理;数据分析模块采用数据挖掘、机器学习等技术对数据进行分析和挖掘;数据可视化展示模块将分析后的结果以图形化的方式呈现给用户。希望能为您解答疑惑。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • R语言︱list用法、批量读取、写出数据时的用法 206050
  • R语言数据集合并、数据增减、不等长合并 194505
  • k-means+python︱scikit-learn中的KMeans聚类实现( + MiniBatchKMeans) 184932
  • PySpark︱DataFrame操作指南:增/删/改/查/合并/统计与数据处理 144846
  • R语言与格式、日期格式、格式转化 143888

分类专栏

  • 付费-智能写作专栏 付费 33篇
  • LLM大模型 30篇
  • Python︱基础与数据处理 33篇
  • 营销科学 48篇
  • 语音识别 4篇
  • streamlit 8篇
  • 联邦学习 3篇
  • 航拍AI 2篇
  • NLP︱R+python 63篇
  • NLP︱相关技术跟踪 23篇
  • 机器学习︱R+python 84篇
  • 个性化推荐 18篇
  • Tensorflow+Keras 20篇
  • 知识图谱(KG/Neo4j) 16篇
  • R︱数据操作与清洗 36篇
  • R的数据操作与清洗 26篇
  • R语言与自然语言处理 21篇
  • R︱精准营销 25篇
  • NVIDIA-RAPID 4篇
  • 机器学习平台Apple.Turicreate 7篇
  • 图像︱相关技术跟踪与商业变现 23篇
  • 图像opencv及图像基础技术 11篇
  • 图像︱caffe 19篇
  • 个性化推荐与检索 8篇
  • 多模态︱相关技术跟踪 1篇
  • 大数据、并行计算&R 15篇
  • R︱金融风险管控 10篇
  • R︱可视化 11篇
  • SPSS Modeler&SPSS 1篇
  • Eviews 8.0&9.0 3篇
  • SAS 5篇
  • docker/linux/API部署 10篇
  • python︱爬虫 2篇
  • 八爪鱼采集器 1篇
  • 图像︱质量评估与检索 1篇

最新评论

  • 大模型系列|垂直大模型的几种训练策略(一)

    t1anwx: 作者的分享总是那么实用,每次都能学到新东西。我用在炼丹侠上获得的免费GPU时长试了试,速度和性能都很满意,对于个人项目来说,这样的资源太宝贵了

  • pyecharts实现多节点、长路径的sankey桑基图

    qq_4030: 请问可以设置点某个节点高亮显示整个和它相关的链条吗

  • 语音识别系列︱paddlespeech的开源语音识别模型测试(三)

    西兰花无缺: 请问怎么忽略语音文件格式

  • 自动化报告pptx-python|高效通过PPT模版制造报告(三)

    weixin_42669556: 不要订阅,直接复制的JoStudio大佬的文章。 不要订阅!

  • 因果推断笔记——python 倾向性匹配PSM实现示例(三)

    weixin_39427070: 感觉有不少错误,比如:PSM+DID中,100次反驳测试中,“对比真实数据的因果效应值,PSM的反驳测试结果大幅下降”,这个结论怎么来的?图中的数据不是这样啊

最新文章

  • 阿里云对象存储OSS的使用笔记
  • 阿里云Dataphin中如何使用python写代码
  • 自动化报告pptx-python|pptx 分析报告的工具包:reportgen(四)
2024年8篇
2023年38篇
2022年29篇
2021年75篇
2020年25篇
2019年15篇
2018年40篇
2017年117篇
2016年139篇
2015年3篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司韶关建站公司清徐百度seo哪家好广安seo网站优化价格吉祥网站优化按天收费阳江百度竞价推荐曲靖网站推广系统公司临沧网站优化排名推荐资阳模板制作公司鹰潭品牌网站设计价格铜陵SEO按天收费价格海北企业网站制作大丰推广网站公司信阳seo网站推广开封企业网站设计多少钱滁州百度爱采购报价焦作百度标王哪家好海南建站哪家好南澳外贸网站设计哪家好泰州优化报价威海网站建设设计报价海口百度爱采购报价中卫网站制作设计哪家好遵义seo排名价格张家界百度竞价多少钱乌海SEO按天计费报价驻马店网站优化推广价格辽阳seo报价聊城网站优化排名报价沧州网站推广公司平凉网站推广工具推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化