百度搜索结果排序

SEO思维 思享 1721浏览

文章主要探讨当用户使用百度搜索引擎查询关键词的时候,百度如何把结果序列展现给用户。出自:《纯正干货-百度搜索结果排序》因作者说明不允许转载,本页面会nofollow,仅保存做个人学习研究。

特征词库的类别的建立与更新

众所周知,百度有特征词库,通过特征词库,可以对用户查询序列,进行判断。例如:当用户搜索“天龙八部在线观看”、“射雕英雄传在线观看”、“鹿鼎记在线观看”、“电视剧在线观看”时,由于这些待挖掘序列中的“天龙八部”、“射雕英雄传”、“鹿鼎记”、“电视剧”在需求特征词库中属于视频类需求的特征词,并且“在线观看”这一关键词与上述视频类需求的特征词的共现频次达到一定阈值(共现阈值)时,根据关键词“在线观看”,提取关键词“在线观看”与视频需求类别的映射关系,并根据映射关系来建立或更新需求特征词库。

对词条的分类

首先对查询序列进行切词处理获得切分后的词条,再通过诸如对词条进行语义分析或根据词条在需求特征词库中进行匹配查询等方式,来获得所述候选需求类别。例如:用户的查询序列为“土豆上的热门影视剧”时,通过对其进行切词处理,得到“土豆/热门/影视剧”,由于影视剧一词具有明显的需求类别,诸如视频、下载、图片、演员介绍,再通过诸如对词条进行语义分析或根据所述词条在需求特征词库中进行匹配查询等方式,来获得候选需求类别。

当挖掘序列相对应的分类结果的用户累计点击次数超过预设点击阈值时,基于所述分类结果所对应的需求类别,提取待挖掘序列与需求类别的映射关系,并根据映射关系来建立或更新需求特征词库,例如,当待挖掘序列为“日本地震”时,根据该待挖掘序列对应的分类结果,如视频类搜索结果、新闻类搜索结果、图片类搜索结果,若视频类搜索结果对应的用户累计点击次数为300,新闻类搜索结果对应的用户累计点击次数为25000,图片类搜索结果对应的用户累计点击次数为700,预设点击阈值为10000时,将待挖掘序列对应的分类结果的用户累计点击次数与预设点击阈值进行比较,并根据高于所述预设点击阈值的分类结果所对应的需求类别,即新闻需求类别,提取该待挖掘序列与新闻需求类别间的所述映射关系,并根据映射关系来建立或更新需求特征词库。

获取需求度

获取与用户的查询序列相对应的原始搜索结果

获取与查询序列相对应的候选需求类别

对原始搜索结果进行处理,根据查询序列,通过诸如对查询序列进行语义分析或根据查询序列在需求特征词库中进行匹配查询等方式,来获得候选需求类别。例如,当用户的查询序列为“土豆上的热门影视剧”时,通过对其进行切词处理,得到“土豆/热门/影视剧”,由于影视剧一词具有明显的需求类别,诸如视频、下载、图片、演员介绍,对该查询序列进行语义分析或在需求特征词库中进行匹配查询,来获得候选需求类别,例如根据“影视剧”可知该查询序列对应的候选需求类别包括视频、下载、图片、演员介绍。

根据查询序列与候选需求类别,确定与查询序列相对应的类别需求度

根据查询序列和候选需求类别,通过诸如对该查询序列所对应的搜索结果按类别进行统计分析或者对关于搜索结果的历史点击记录按类别进行统计分析,确定所述查询序列对于每一候选需求类别的类别需求度。例如:“××影视明星”时,根据查询序列,得到候选需求类别包括视频、新闻、背景介绍、音乐、图片,然后根据查询序列和候选需求类别,通过诸如对该查询序列所对应的搜索结果按类别进行统计分析或者对关于搜索结果的历史点击记录按类别进行统计分析,确定与所述查询序列相对应的类别需求度,如,“××影视明星”查询序列在视频类的类别需求度为0.3;查询序列在新闻类的类别需求度为0.3;查询序列在背景介绍类的类别需求度为0.1;查询序列在音乐类的类别需求度为0.2;以及查询序列在图片类的类别需求度为0.1。

需求度确定:

用户的查询序列为“××影视明星”,将查询序列在需求特征词库中进行匹配查询,当在需求特征词库中匹配查询到××影视明星属于明星列表并且该明星列表对应的需求类别包括视频、新闻、背景介绍、音乐和图片时,得到与查询序列相对应的候选需求类别包括视频、新闻、背景介绍、音乐和图片。结合该查询序列相应的大量用户的点击统计分析,如:统计分析结果中表明视频类搜索结果、新闻类搜索结果、背景介绍类搜索结果、音乐类搜索结果与图片类搜索结果的用户点击频次分别为60000次、10000次、10000次、10000次和10000次,则查询序列对于视频类搜索结果的类别需求度为0.6,而对于图片类搜索结果的类别需求度为0.1。

根据类别需求度,将搜索结果提供给用户。

根据所述类别需求度,将搜索结果提供给所述用户。还是以“××影视明星”为例:当用户的查询序列为“××影视明星”时,查询序列在视频类的类别需求度为0.3,在新闻类的类别需求度为0.3,在背景介绍类的类别需求度为0.1,在音乐类的类别需求度为0.2,在图片类的类别需求度为0.1时,若查询序列的搜索结果列表中的第一页显示10条搜索结果,根据类别需求度,将3条视频类的搜索结果、3条新闻类的搜索结果、1条背景介绍类的搜索结果、2条音乐类的搜索结果提供给用户,并且将剩余的所有搜索结果中与查询序列相关度最高的1条搜索结果在第一页提供给用户。

根据类别需求度,将类别需求度与搜索结果提供给用户。具体地,根据查询序列与候选需求类别,通过诸如对该查询序列所对应的搜索结果按类别进行统计分析或者对关于搜索结果的历史点击记录按类别进行统计分析,确定了与查询序列相对应的类别需求度后,以诸如特别字体、浮动窗口等方式,将搜索结果相对应的类别需求度与搜索结果提供给所述用户。百度已使用此类

技术,可在百度搜索结果页面中找找。

对结果的优选

查询相关属性包括以下至少任一项:

搜索结果与所述查询序列的相关度;

搜索结果的权威度;

搜索结果的时效性。

相关度:

优选结果不仅根据搜索结果所对应的类别需求度,而且还结合搜索结果与查询序列之间的相关度,将搜索结果提供给对应的用户。当搜索结果所对应的新闻类搜索结果的类别需求度和音乐类搜索结果的类别需求度相同时,将所述搜索结果对应的类别需求度与搜索结果和查询序列之间的相关度结合,将所述搜索结果提供给用户。

1、网站内容是否和网站主题相关。

可以方便搜索引擎把你网站进行定位,方便对你网站进行类目分类。准确的类目分类对提升网站在某一个行业中的权威度有很大的好处。

2、网站中的内容是否能够满足用户需求。

这个讨论的太多了。就不一一详解。

网站中的内容相关性是影响seo排名的主要因素之一。

权威度:

确定查询序列的类别需求度后,搜索结果对应的类别需求度与搜索结果的权威度结合提供给用户,例如:查询序列对应的新闻类搜索结果的权威度较高而查询序列对应的音乐类搜索结果的权威度较低时,将查询序列对应的新闻类搜索结果和音乐类搜索结果依次提供给所述用户对应的用户。

.权威不等于知名,知名反作用于权威。

.权威度的计算方法比较复杂,有很多的基数作为参考,以下列出“可能”决定权威度的一部分基数。

  1. 网站品牌词的搜索量。
  2. 与网站相关的长尾词的流量。
  3. 直接访问流量。
  4. url中的体现的权威度(在索引库中存在的时间,在搜索中的表现,政府网站等)。
  5. 口碑与社交媒体的转载。搜索引擎一直在监控网络上用户的一举一动。不过因为一些“原因”有些是直接效果,有些是间接效果,或者没效果。不过所有可以点击的link都是有用的。
  6. 网站更新频率。嘿~!这个网站还有人维护呢。不是死站。短期内不维护(春节放假7天)影响不大。当长时间不维护。真的可能会降权。
  7. 页面代码的规范化。虽然现在已经过了扣细节的时代,但是搜索引擎还是通过源代码来获取页面信息。适当的减噪,可以让搜索引擎更方便的判断主体内容,主题,页面结构等。
  8. 所有元标签内容的质量与相关度。tkd的重要性不用说了。
  9. 外部投票:百度的外部链接算法,最近看了个百度的文章,貌似是:把网站所有的有外链的页面建成一个合集,把其他一些结构相似的页面建立一个合集,通过合集之间的互换外部投票的权重,得到结构相似的页面外部投票的权重,在加上内部投票权重,等于未处理的原始页面权重。
  10. 相关文章内容是否丰富。(文章数量,质量,配图情况等)

网站中的权威度现在是影响百度排名的最重要的因素之一

时效性:

不仅根据搜索结果所对应的类别需求度,而且还结合搜索结果的时效性,将搜索结果提供给用户。例如:查询序列对应的新闻类搜索结果的时效性较强而查询序列对应的音乐类搜索结果的时效性较弱时,将查询序列对应的新闻类搜索结果和音乐类搜索结果依次提供给用户对应的用户。

多见于时效性很强的内容。如:mh370飞机失事前,排名在mh370搜索结果页面的主要为mh370飞机的订票,介绍等信息。当飞机失事后,随着新闻类目需求的增加,搜索结果页面也随之进行了变化。

排序并不是以先来后到为准,在文章时效性很强的时候,很“短”的一段时间内出现大量类似文章,点击率达到一定厥值,搜索引擎结合相关度,权威度等一系列的算法,向搜索用户推荐相关索引序列。

title对百度搜索结果排序的影响

我们都知道只有title中包含关键词组才有可能在搜索引擎中有这个词的排序,但随着百度对自身的用户体验的发展,从百度排名算法发展上看,关键词位置决定排名-关键词完全匹配优势-关键词分词结果进入排名-根据关键词用户体验进行排名排序等一些列算法的改变,百度对于搜索结果序列是否能够满足用户需求,一直都在尝试。随着百度的尝试,Seo也从体力活慢慢的向智慧型转变。

那么我们分析下百度排序是如何提升自己的用户体验的。

百度有搜索日志,监控每个用户的搜索习惯,通过搜索日志,可以把很多关键词联系起来。

1、 通过搜索日志,可以产生泛需求词,涵盖几乎所有的有需求的词。

  • 通过模式词表对词语进行选取或者数据挖掘的方式得到,模式词表中的词包括起修饰作用的形容词,例如“好玩的”、“好看的”、“聪明的”等等。搜索日志记录了一个以上用户的搜索行为,包括用户搜索时使用的关键词,因此,通过模式词表,可以从搜索日志中提取出一个以上前缀匹配的关键词,例如“好玩的地方”、“好看的电影”等等,这些前缀与模式词表中的词匹配的关键词均可作为泛需求词。
  • 从搜索日志中提取以预设的模式词表中的词为前缀的关键词,并将提取的关键词去除前缀后的剩余部分作为泛需求词。例如以模式词表中的词为前缀的关键词有“好看的电影”、“好玩的地方”,其中“好看的”、“好玩的”,是前缀则“电影”、“地方”就是泛需求词。
  • 确定搜索日志中各关键词的后继词,并将属于同一实体类别的后继词所占比例超过第一设定阈值的关键词作为泛需求词,其中一个关键词的后继词是与该关键词共同出现在一个会话中且在该关键词之后出现的词语。

2、 通过泛需求词,可以提取到相对应的精确需求词与后续词。例如:泛需求词(电影),通过搜索日志,我们得到精确需求词(电影天堂,电影下载,电影排行榜,电影网)同时也得到了电影的后续词(速度与激情,战狼,奔跑吧兄弟等)在这里先不讨论后续词,虽然广泛应用在右侧相关展示、大家都在搜、阿拉丁。我们单单说说精确需求词。

3、 通过搜索日志,确定泛需求词语与精确需求词之间的关联强度,是否是泛需求词之后出现的词语。

4、 获取当前用户的访问序列,将当前访问序列与候选精确需求词序列进行匹配。

5、 根据搜索日志,所有用户的点击行为轨迹,判断精确关键词用户需求度,在泛需求词序列中穿插需求词序列结果。当精确需求词达到一定点击撅值,搜索引擎认为在泛需求词中这个精确需求词更能代表泛需求词的用户需求,泛需求词序列中将提供更多的展示位置。例:当泛需求词中没有特殊需求度特强的精确词,我们有可能看见如下情况:

搜索电影百度下拉

电影搜索排序 电影搜索排序 电影搜索排序

但这有其特殊性。

又例如:安卓软件(泛词),用户点击需求大量指向安卓软件下载(精准),所以首页排序中出现大量安卓软件下载、安卓下载类网站。

6、 生成当前搜索结果页并展现给用户。

7、关于泛需求词搜索结果调出的精确需求词序列具体是那条记录,就先不写了。太累,有机会再聊!!

看晕了吧,其实就一句话:抛去其他优化条件,title中除了飘红的关键词外,不飘红的字是否能够满足用户需求,而这种需求是搜索引擎认可的,你将有更多展示机会。

 

 

推荐阅读

关注二维码才能下载,这样会被惩罚吗?

建议改为页面直接提供下载,用户觉得资源好可以引导用户关注,但不能以关注作为条件让用户下载资源。...

手机百度的排名算法是否与PC端相是一样的?

网站关键字的电脑端排名和手机排名端排名是一样的吗?移动端是否有单独的算法,或者说有一些不同的地方。百度的排名算法是否与PC端一样,PC端的优化方法可以应用到移动端吗?...

百度上线信风算法,打击翻页诱导

近期,百度搜索技术团队发现,部分网站存在利用翻页键诱导用户的行为,极大的损害了用户的浏览体验。针对此类问题,信风算法即将上线,对于存在问题的站点将会进行严厉打击。 信风算法主要针对以下情况: 用户点击翻页键时,自动跳转至网站的其他频道页(如目录页、站......