澎湃Logo
下载客户端

登录

无障碍
  • +1

我们用12520个热词测试了百度搜索,发现了这些规律

2019-01-26 10:57
来源:澎湃新闻·澎湃号·湃客
字号

本文经上观新闻授权转载,未经许可请勿转载。

作者|肖书瑶 脱崯

引言:搜索引擎到底是按照什么规则来排序?

百度在风口浪尖上又做修改了。这次改的是搜索结果中的显示方式。从1月24日(周四)中午开始,原本显示域名的地方变成了名称和图片,除非点击跳转,用户再也无法从观看域名来判断这条信息真实来源。

例如,对于关键词“特朗普”,同样的搜索结果与位置,前一天还显示域名,昨天已经显示“环球时报评论”。我们也注意到,只有新闻资讯类网址才会变成这种形式。

修改后:

 

你可能以为“环球时报评论”会跳转到“环球时报”,但其实指向是环球时报百家号。自媒体还是机构媒体,是“百家号”还是“网站”?傻傻分不清。

修改前:

模糊的界限

从“信息来源”来看,就像身份证一样,“域名”是唯一的。类似gov, edu,org的后缀更有着严格的注册标准。 

这次式样改动,一是模糊了信息来源,背后是谁在挑选信息,谁来为真实性把关?二是模糊了百家“号”与“网站”的差别。 

这不是百度第一次模糊界限。曾经的百度导航栏有“新闻”选项,2017年上半年,“新闻”悄悄变成了“资讯”。 

百家号“霸屏”? 

两天前,自媒体“新闻实验室”指责百度第一页搜索结果一半以上会指向百度自家产品,尤其是百家号。 

面对指责百度觉得很冤,声明称百家号全站占比小于10%。“问心无愧。”副总裁沈抖接受采访的时候说。

按“全站占比”统计有没有意义?

上海交通大学媒体与传播学院魏武挥写道:“这种回应有那么点逃避问题的诡辩感觉:方可成批评的是第一页结果,百度回应是说“搜索结果”——其实可以理解为全部结果。但问题是,除非具有特殊目的,很少有用户会对三页之后的内容感兴趣。”

搜索引擎用户行为研究显示,92%的用户在搜索时会点击前5个位置。点击次数到第三页急剧下降,第五页以后几乎没有人点击。这和我们的真实体验一致。所以说,比“占比”更重要的概念是“排序”。10%的内容在前10%的位置展示和在后10%的位置展示,效果天壤之别。

12520个热词背后

因此,我们用12520个搜索热词在百度搜索上进行了测试,看百家号或其他百度号——包括百科、贴吧、文库等网站在搜索结果第一页占多少比例,用数据来看,百度到底冤不冤? 

结果显示,50.3%关键词在第一页有一半以上的结果指向了百度自家的网站,这其中有59.3%指向了百家号。也就是说,如果第一页有10个链接是百度自己的网站,6个都是百家号。如果再把范围扩大一点,89.8%的关键词在第一页结果中包含百度自己的网站,84.5%有百家号。 

百家号不仅作为独立的搜索结果散落在页面上,还有一级链接+5个副链接的整块显示。作为中文互联网搜索最大的流量入口,2018年第一季度百度的市场份额占比达到80.09%。

什么样的关键词容易出现百家号结果?

根据我们的热词搜索结果,百家号占比排在前1%位置的关键词是:

百家号占比排在前1%位置的关键词(百家号占比在60%以上),人名(尤其是明星)、娱乐、健康、体育、生活知识等类别的关键词最容易出现百家号。搜索准确的网站名、查询工具类的关键词出现百家号的几率较低。

在百度改变了搜索结果中百家号的样式后。原有的测试方法连计算机都无法从首页源代码中获取真实的链接,必须点击进去,才能知道到底是什么网站。我们改变方法后重新进行测试,结果和第一次测试保持一致。虽然样式变了,但排序算法依旧和原来一样。

搜索引擎的“把关”逻辑

搜索引擎就像我们在互联网时代的眼睛,很大程度上决定了我们将看到什么样的内容、产生什么样的思考。有了互联网以后,“信息平等”看似触手可及,但“把关人”一直存在,只是在搜索引擎上,从人变成了机器。

搜索引擎到底是按照什么规则来排序?

回归本源,这其实一个“大家都在看什么”的数学问题。 

上个世纪90年代,最原始的排序方法是——关键词出现次数越多越排在前面。显然,排在前面的很可能是重复关键词的垃圾网页。 

谷歌主导互联网搜索后,一个新的排序方法产生了——链接流行度(PageRank),一个网页被其他网页链接得越多,排序就越靠前。

此后排序算法不断升级,纳入了关键词突出程度、网页点击量、停留时间、相似关键词等因素综合考量。排序算法至今都是各公司的“核心机密”,“大家在看什么”的朴素算法依然是排序的核心与基础。 

在信息流出现以后,排序算法又有了一次革新。决定什么在排在前面的不再是“大家都在看什么”,而是“你想要看什么”。算法会根据你的互联网使用行为来猜测你的喜好,将你爱看的相似内容自动排在前面推荐给你。百度如此,谷歌如此,几乎所有的搜索引擎都在做这件事。 

在百度这一模式被称为“搜索引擎+信息流”的双引擎分发战略。这个战略2018年为百度带来了超过1000亿元的收入,第二季度移动端净营收占比从去年的5%提至77%。信息流及AI业务占到百度核心(BaiduCore,即搜索服务与交易服务的组合)近20%收入,同比增长则超过150%。 

如此高额的盈利能力,其中一个重要的基础就在于利用百家号实现了用户的最终停留。

主动搜索行为和信息流推荐同时掌控分发渠道,190多万个百家号则是百度建立的庞大内容池。自家的引擎推荐自家的内容,流量从百度搜索来,到百度号去。

“把用户留在自己的网站上”,本没有问题。根据搜索引擎专家Rand Fishkin的统计,在谷歌上,12.6%的点击去了排名前100的大型网站,剩下87.4%的点击去了普通站点,这其中又有11%的点击去了谷歌自己的网站——包括地图、邮箱、图书等。

2016年的魏则西事件也许让百度意识到搜索引擎需要承担更大社会责任。不过,从竞价排名、贴吧广告、信息流推荐,再到百家号“霸屏”来看,百度对搜索引擎的“排序”逻辑似乎没有改变。

栏目主编:刘璐  文字编辑:刘璐

本文经上观新闻授权转载,未经许可请勿转载。

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

    深圳SEO优化公司佛山推广网站推荐甘孜设计网站哈尔滨营销网站价格沧州seo公司平凉建设网站多少钱漳州外贸网站建设推荐乌海网络营销黄南SEO按天计费报价永湖企业网站建设报价海口网站制作设计价格荷坳网站搭建报价揭阳SEO按效果付费苏州关键词按天收费公司张掖至尊标王公司枣庄优秀网站设计多少钱铁岭网站seo优化推荐新余模板制作哪家好汕尾英文网站建设多少钱宜宾网站优化按天扣费公司池州网站排名优化推荐龙岩网站设计株洲网站设计哪家好永湖企业网站改版多少钱铜仁模板推广报价南充网站改版价格乌海设计网站多少钱海南设计网站推荐荆州设计网站民治网站优化按天收费南联优秀网站设计哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

    深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化