备案 控制台
开发者社区 人工智能 文章 正文

舆情中的热词分析,没你想的那么简单

简介: 阿里云公众趋势分析产品通过云服务的方式,将阿里巴巴成熟的舆情分析技术共享给广大开发者。热词分析是公众趋势分析最近刚刚上线的功能,用户反馈效果还不错。那么这个听上去很简单的功能,背后有哪些不为人知的细节呢?

背景

阿里云 公众趋势分析产品通过云服务的方式,将阿里巴巴成熟的舆情分析技术共享给广大开发者。 热词分析是公众趋势分析最近刚刚上线的功能,用户反馈效果还不错。这个功能听起来很简单,不就是对数据源进行分词,然后再统计一下热度么?No!它可没那么简单。

分词和实体识别

良好的分词是热词分析的基础。对于绝大部分分词工具来说,最大的挑战在于识别从未见过的网络热门词、各种奇葩的品牌、产品词等,举个例子,“安利的空气净化器跟霍尼韦尔还有米家比怎么样”这个句子,我们随意在网上找到了某款开源的分词工具,分词的结果如下:

安利/的/空气/净化器/跟/霍尼/韦尔/还有/米/家/比/怎么样

分词工具能识别一般的词语,但是对于品牌词、产品词等专有的实体词,在没有知识库的辅助下很难识别。而阿里在互联网尤其是电商领域耕耘多年,积累了丰富的词库,并始终在不断更新,譬如上述句子,我们可以将其断成如下形式:

安利:brd/的/空气净化器:prd/跟/霍尼韦尔:brd/还有/米家:brd/比/怎么样

不仅能正确地分词,而且还能识别出其中的实体,如霍尼韦尔和米家是品牌词(brd),空气净化器是产品词(prd)。目前,公众趋势分析背后有百万级的人名、品牌、地址、组织机构名、商品、品牌词库等做支撑。

3f21a0affb1d0e57f73b858f68840c6f54547e77

关键词提取

海量的文章,带来了巨大数量的词,对于每篇文章,真正需要被关注的只是少数关键词,那么如何在一篇长文本中挑出关键词呢?热词分析使用TextRank算法为文本生成关键词。

TextRank的算法思想来源于PageRank,旨在通过文本中句子、词之间的相互投票,为句子、词进行权重的排序。PageRank假设一个网页的入链越多,则其权重越高。随机地为每个网页分配一个初始权重,在每一轮投票中,每个网页将其权重均匀地分配给其出链,收敛后(平稳马尔科夫过程)每个网页得到的权重值反映了其重要性,每轮投票的数学表述为:

8835cdaba445e628d8d9923c4de65f20e8a32b0c

其中d为阻尼系数,(1-d)/N表示每次页面转移时有一定的概率会从全网随机选择url,这样可以避免没有外链的悬挂网页让所有权重收敛到0。

PageRank通过页面之间的链接关系建立投票机制,TextRank以此为启发,通过词之间的邻近关系建立词权重投票机制,即假如两个词出现在同一个窗口中,则它们之间产生一次权重投票,这样可以通过PageRank的求解方法,计算每个词在文本中的权重。得到权重的排序之后,就可以挑选topN词作为关键词了。

18184d5151fe508b3ada0a29db9571b1b09ffa75

词关联计算

体验过热词分析功能的读者会发现,对于每个热词,我们提供了与其强关联的词,那么,这些关联关系如何计算呢?

48287e89e4a53e5456cb8946ef55426249b772b3

词关联使用点互信息PMI(pointwise mutual information)来表示,用信息论的语言来表述,点互信息衡量的是“给定一个随机变量后,另一个随机变量不确定性的减少程度”。假设有两个词x和y,则x和y之间的点互信息由下述公式表示:

dc8a7becce907ad4d4a4fa5baeaa7a78e0e02cc9

其中p(x,y)表示x和y同时出现的概率,p(x)和p(y)分别表示x和y单独出现的概率。简单粗暴地理解,就是说相对于单独出现,某两个词更喜欢一起出现,则它们之间的关联程度越高。

热度计算

好了,现在我们已经能得到每篇文章的关键词,而且也能计算跟这些关键词有关联关系的词了,那么词的热度如何衡量呢?词的热度计算不能仅仅统计这个词在所有文章中的出现次数,因为每篇文章的热门程度不一样,汪峰上了头条时的报道,对于热度的计算不能跟一般的小道消息同日而语。热词分析在计算热度时,会用文章的热度对词进行加权,而文章的热度会综合考虑以下因素:

  • 文章的转发量
  • 浏览量
  • 评论量
  • 文章发布的时间,如果发布时间越长,则热度衰减地越高

具体的计算公式就不在这公开了,那是我们经过无数次的调试之后的结果,有兴趣的读者也可以了解一下 这篇文章。

后记

小小的热词分析,背后也有这么多的技巧和门槛,然而这一切,都是为了利用阿里的大数据技术积累,尽量为客户呈现最精准的舆情分析,产品刚刚上线,优化的路还很长,欢迎大家试用。

觉民cloud
目录
相关文章
开心工作室_kaic
|
1月前
|
存储 分布式计算 搜索推荐
基于hdoop的短视频用户画像研究_kaic
基于hdoop的短视频用户画像研究_kaic
开心工作室_kaic
17 2
金牛座Tina15579030501
|
4月前
|
数据采集 监控 搜索推荐
电商关键词研究:数据收集挑战与解决方案
关键词研究的重要性 深入的研究可以为卖家提供以下信息: 竞争对手数据; 内容营销的点子; 消费趋势; 客户的需求。
金牛座Tina15579030501
60 0
奔跑的数据
|
7月前
|
数据采集 数据可视化 数据挖掘
爬虫技术对携程网旅游景点和酒店信息的数据挖掘和分析应用
爬虫技术是一种通过网络爬取目标网站的数据并进行分析的技术,它可以用于各种领域,如电子商务、社交媒体、新闻、教育等。本文将介绍如何使用爬虫技术对携程网旅游景点和酒店信息进行数据挖掘和分析,以及如何利用Selenium库和代理IP技术实现爬虫程序
奔跑的数据
279 0
奔跑的数据
|
6月前
|
数据采集 存储 数据可视化
电影产业的数据洞察:爬虫技术在票房分析中的应用
电影产业是一个庞大而复杂的行业,涉及到各种各样的因素,如导演、演员、类型、主题、预算、宣传、口碑、评分、奖项等。这些因素都会影响电影的票房收入,也会反映出电影市场的动态和趋势。为了更好地了解电影产业的数据洞察,我们需要收集和分析大量的电影相关信息,这就是爬虫技术发挥作用的地方。
奔跑的数据
74 0
游客w7euhil5gdggu
|
8月前
|
监控 数据可视化 数据挖掘
如何对舆情导向进行分析?
如何对舆情导向进行分析?
游客w7euhil5gdggu
64 0
编程技术君
|
11月前
|
BI 开发者
《中国开发者画像洞察报告2022》——04 基于开发者人群的趋势预测(上)
《中国开发者画像洞察报告2022》——04 基于开发者人群的趋势预测(上)
编程技术君
101 0
编程技术君
|
11月前
|
存储 Kubernetes 架构师
《中国开发者画像洞察报告2022》——04 基于开发者人群的趋势预测(下)
《中国开发者画像洞察报告2022》——04 基于开发者人群的趋势预测(下)
编程技术君
101 0
编程技术君
|
11月前
|
开发者
《中国开发者画像洞察报告2022》——03 开发者人群特征洞察——3.1 学习驱动
《中国开发者画像洞察报告2022》——03 开发者人群特征洞察——3.1 学习驱动
编程技术君
56 0
ftw2fzqaoykua
|
存储 数据可视化 数据安全/隐私保护
市场分析可视化案例2:市场分析关键词| 学习笔记
快速学习市场分析可视化案例2:市场分析关键词。
ftw2fzqaoykua
91 0
市场分析可视化案例2:市场分析关键词| 学习笔记
游客w7euhil5gdggu
|
监控 安全
小红书舆情优化处理及舆论监控分析
从近年来企业舆情爆发的规律来看,在两微一抖以外,小红书似乎成为了舆情爆发的新源头。
游客w7euhil5gdggu
912 0

热门文章

最新文章

  • 1
    随机生成UserAgent的python库(fake-useragent库)
  • 2
    使用zxing识别一幅包含多个二维码的图片
  • 3
    阿里云的SLB,植入cookie和重写cookie有什么区别?
  • 4
    基于Flink的实时日志分析系统实践
  • 5
    如何在服务器上跑python程序
  • 6
    电池技术多年没有较大发展,成为移动设备最大制约
  • 7
    Spread for WinRT 7新功能使用指南
  • 8
    codeforces Soldier and Number Game(dp+素数筛选)
  • 9
    九度oj-1001-Java
  • 10
    Android:随笔——对页面的View进行截图
  • 1
    分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势2
    9
  • 2
    分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法1
    9
  • 3
    灰色关联分析(Grey Relation Analysis,GRA)中国经济社会发展指标
    9
  • 4
    极值分析:分块极大值BLOCK-MAXIMA、阈值超额法、广义帕累托分布GPD拟合降雨数据时间序列
    9
  • 5
    GARCH-DCC模型和DCC(MVT)建模估计
    8
  • 6
    ARIMA、ARIMAX、 动态回归和OLS 回归预测多元时间序列
    10
  • 7
    R语言预测期货波动率的实现:ARCH与HAR-RV与GARCH,ARFIMA模型比较
    10
  • 8
    spss modeler用决策树神经网络预测ST的股票
    9
  • 9
    K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较
    8
  • 10
    matlab中使用VMD(变分模态分解)对信号去噪
    8
  • 相关课程

    更多
  • 场景实践-通过阿里云数据分析工具实现共享单车骑行分析
  • 场景实践 - 机器学习PAI实现精细化营销
  • 实时数据应用:实现淘宝母婴订单实时查询和可视化
  • 场景实践 - 搭建个性化推荐引擎系统
  • 声纹识别技术
  • 场景实践 - 基于机器学习进行收入预测分析
  • 相关电子书

    更多
  • 中国开发者画像洞察报告2022
  • 面向深度效果的广告投放系统介绍
  • 蘑菇街广告的排序:从历史数据学习到个性化强化学习
  • 相关实验场景

    更多
  • Lindorm AIGC:十分钟搞定智能问答 + 多模态检索
  • 实现淘宝母婴订单实时查询和实时大屏
  • 汽车产线生产管控实操
  • 基于星轨-数据中台工具的数据探查
  • 简单用户画像分析
  • 一键创建和部署高分电影推荐语音技能
  • 下一篇
    阿里云oss简介和使用流程

    深圳SEO优化公司长治建设网站多少钱池州网站制作设计多少钱红河seo排名报价海南网站推广推荐河源网络推广推荐延安建网站推荐张家口网站制作推荐淮南建站价格鹰潭网页制作多少钱邯郸百度标王公司甘南关键词排名包年推广多少钱辽源品牌网站设计推荐文山网站制作设计价格开封SEO按天计费推荐坑梓网页设计迪庆设计公司网站多少钱清徐网站制作设计公司泉州网站建设推荐信阳网站优化排名推荐廊坊网站改版公司内江高端网站设计报价昌都网站推广方案推荐黔东南seo报价温州外贸网站建设多少钱兴安盟外贸网站设计价格通化品牌网站设计推荐唐山网站改版公司崇左模板制作哪家好衡水网站设计吉林seo歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

    深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化