以求医为例,百度讲述搜索排序的那些事儿

最近,一些 SEO 合作伙伴总是向我询问医疗 SEO。 事实上,在许多行业中,一些搜索引擎的工作原理都是一样的。 以医疗为例,和大家分享一下百度的早期发展历程。 说说搜索引擎算法的基本原理:

我们向搜索引擎提交一个查询,搜索引擎会从头到尾列出大量的结果。 对这些结果进行排序的标准是什么? 这个看似简单的问题,正是信息检索专家研究的核心问题之一。

为了说明这一点,让我们研究一个比搜索引擎更古老的话题:寻求医疗。 例如,如果我牙痛,我应该去看什么样的医生? 假设我只有三个选择:

A 医生,同时治疗眼部和胃部问题;

B 医生,同时治疗牙病、胃病和眼病;

WWW.123456。Cn

p>

博士。 C、专攻牙病。

A医生肯定不在名单上。 在B医生和C医生之间,我应该选择C医生,因为他更专注,更适合我的情况。 如果再加一个条件:B医生有经验,有二十年的从医经验,医术精湛,而C医生只有五年的从医经验,这个问题就不好判断了,优先选择 越敬业的C医生,是否优先考虑医术更高的B医生,确实成了一个需要慎重权衡的问题。

WWW.123456。Cn

至少,我们来到了一个 结论,选择医生需要考虑两个条件:医生的专业知识对病情的适应程度; 医生的医术。 这个结论大家肯定想当然,自然认为搜索引擎排名也是如此。 需要考虑网页内容与用户查询的匹配程度,以及网页本身的质量。 但是,如何将这两个因素结合起来得到一个而不是两个或多个排序标准呢? 如果我们将这两个因素表示为数值,最终的排名是基于将这两个值相加、相乘还是将它们组织在决策树中? 如果是加法,是简单加法还是加权加法?

WWW.123456。Cn

我们可以根据直觉和经验,通过反复试验将这两个因素结合起来。 但如果我们能找到一个明确的基础,最好能和数学这样的坚实学科联系起来。 说起来,根据简单的经验,古代人类可以建造高楼; 但是,如果没有建筑力学和材料力学等坚实学科的支持,要建造高达数百米的摩天大楼是非常非常困难的。 同理,一个基于简单经验构建的搜索引擎算法,在处理上万个网页的集合时应该是没有问题的; 但要检索亿万网页需要更扎实的理论基础。

患者就医时,会优先选择诊断准确、治疗效果好的医生; 对于搜索引擎,一般按照网页满足用户需求的概率进行排序。 如果用q表示用户给出了具体的查询,用d表示具体的网页满足用户的需求,那么排序的依据可以用一个条件概率来表示:

P(d|q )

WWW.123456。Cn

这个简单的条件概率将搜索引擎排名算法与可靠的概率论学科联系起来,就像一艘在海洋中航行的船配备了指南针。 使用贝叶斯公式,这个条件概率可以表示为:

WWW.123456。Cn

可以清楚地看出,搜索引擎的排名标准由三部分组成:查询本身的属性P(q); 自身的属性P(d); 两者的匹配关系P(q|d)。 对于同一个查询,所有网页对应的P(q)都是相同的,所以排序的时候可以忽略,即公式左边是已知用户的查询,该网页的概率 满足用户的需求。 为了提高响应用户查询的性能,搜索引擎需要预先对所有要查询的网页进行预处理。

在预处理时,只知道网页,但不知道用户查询,所以需要逆向计算,即分析每个网页能满足哪些需求,占多少比例 满足要求的网页,即得到公式右边第一项,P(q|d),相当于上面描述的博士专业度。 例如,如果一个网页专门介绍牙科疾病,而另一个网页同时介绍了牙科疾病和胃病,则查询“toothache”时,前一个网页的 P(q|d) 值会更高。

公式右边第二项P(d)是一个网页满足用户需求的概率,反映的是网页本身的质量,与查询无关 . 如果我们想向一个陌生人推荐一个网页(我们不知道他需要什么),那么 P(d) 就相当于一个特定网页被推荐的概率。 在传统的信息检索模型中,这个数量并没有得到太多关注,例如传统的向量空间模型和BM25模型,它们试图仅根据查询与文档的匹配关系来获得排名权重。

其实这个和查询是一样的关的量是非常重要的。假如我们用网页被访问的频次来估计它满足用户需求的概率,可以看出对于两个不同的网页,这个量有着极其巨大的差异:有的网页每天只被访问一两次,而有的网页每天被访问成千上万次。

能够提供如此巨大差异的量,竟长期被传统的搜索引擎忽略,直到Google发明了pagerank并让它参与到排序中。

Pagerank是对P(d)值的一个不错的估计,这个因素的加入使搜索引擎的效果立即上升到了一个新的台阶。  

这个公式同样回答了上文提出的问题,网页与查询的匹配程度,和网页本身的好坏,这两个因素应该怎样结合起来参与排序。

这个公式以不可辩驳的理由告诉我们,如果网页与查询的匹配程度用P(q|d)来表示,网页本身的好坏用P(d)来表示,那么应该按它们的乘积来进行排序。在现代商业搜索引擎中,需要考虑更多更细节的排序因素,这些因素可能有成百上千个,要把它们融合起来是更加复杂和困难的问题。