注册 登录
当前所在位置: 首页 > seo资讯 > 正文

浅析,搜索引擎中的粒度问题

2024-04-24 09:40:04 seo资讯 【 字体:

在做SEO的过程中,我们总会遇到各种各样的问题,尤其是当你成为百度SEO公司的时候,我们需要深入研究相关的搜索算法,这样我们在提供相关的优化策略时,才能有针对性 ,我们知道,为了尝试更好的排名,我们需要深入了解页面需求和特定关键字之间的搜索原理。 以下文章为百度早期专业文档,供大家参考:

< p style="text-align:center">

我。 前言

传统搜索引擎的定义是指返回与给定查询(Query)相关的文档(Documents)集合的系统。 而百度丰富了这个定义,即搜索引擎可以帮助人们更方便地找到自己要找的东西。 这里的“问题”比“文档”更广泛、更丰富。 例如,查询天气直接返回一个天气预报窗口,而不是一个关于天气的文档; 再比如一个小游戏的查询,直接回到这个小游戏的Flash页面,而不是简单的介绍文字。

百度对Query的深入理解源于自然语言处理技术在其中发挥的巨大作用。 对于搜索引擎来说,文本分割是最基本和最重要的自然语言问题之一。 今天,我们来谈谈文本切分粒度和搜索引擎的关系。

wWw.123456。cn

本文后续章节组织如下:第2节介绍什么是文本粒度,第3节介绍搜索引擎的基本原理与文本切分粒度的关系,第4节讨论 属性与深度检索粒度相关性计算,第五节小结。

2. 文本粒度

什么是文本粒度? 我们用什么来衡量文本粒度? 在回答这些问题之前,我们先来看看以下几组词:

缠绵、崎岖、葡萄、乒乓

绿茶、篮球、红、鼠标垫、鹤

wWw.123456。cn

打球、跳绳、做饭、爬山

笔记本电脑、高清机顶盒、IP电视

但是,如果,非常

wWw.123456。cn

一步一步心,家的n次力量,一个人的美好

百度在线网络技术(北京)有限公司,清华大学

张学友,赵川 , 工藤新一, Leone

...

这组词中,哪些词组粒度大,哪些词组粒度小?

无论在传统语言学还是自然语言处理中,都没有明确准确的粒度定义。 但就搜索引擎而言,我们不妨这样定义:粒度是对文本中包含的信息量的衡量。 文本包含大量信息,粒度大,反之亦然。 有了这个原理,我们就可以很容易的判断出文本粒度的大小。 像“缠绵”、“崎岖”、“葡萄”这样的词,虽然由两个词组成,但只表达一种意思,而且这些词的粒度很小。 “篮球”和“鼠标垫”这两个词是由简单的词组成的。 虽然只有一个意思,但也可以拆分,比如“basket”和“ball”,“mouse”和“pad”。 这些词的粒度稍大。 而像“笔记本电脑”和“高清机顶盒”这样的词则更加细化。

专有名词是一种特殊的词。 虽然包含了很多词,但实际上只表达了一个意思,比如“步步惊心”、“家n次幂”等影视剧名,粒度很小。 机构名称、个人名称等属于具有内部结构的专有名称,其粒度略大于电影名称。

很明显,当我们讨论文本的粒度时,理想的方式是从语义的角度进行合理的分析和判断。 但是,我们只是对上面的粒度进行了定性分析,找到适合粒度的度量单位和计算方法是百度人一直追求的目标。

3. 搜索引擎的基本原理和分词关系

3.1 搜索引擎的基本原理

文本检索系统是搜索引擎最简单的实现方式。 通过返回包含关键字的页面,满足用户的检索需求。 形式化的表达是给定一系列关键字集K,要求返回所有包含关键字的文档D,对于D中的任意文档d,在K中包含任意关键字k。

一般我们使用 倒排索引方法来实现这个系统。 所谓倒排索引,就是在一个关键字上建立一个索引,记录包含该关键字的文档集D。 对于请求的一组关键字,找到所有关键字对应的索引并对索引求交,最后返回同时存在于所有索引中的文档。  

在百度,我们不仅允许用户输入关键字,也可以输入任何长度在一定范围内的文本。此时我们需要对文本做一定处理,切分成一系列关键字,从而能够从倒排索引中找出对应的文档。  

那么为什么要对输入文本做切分,如果不切分会有什么问题?  

我们可以想象一下,如果不对输入文本做切分,直接用输入文本去做匹配,会怎么样?首先,得到的结果会非常少,因为直接用全部文本匹配,就失去了灵活性,对结果限制的非常死,必须完全匹配才能满足要求;其次,系统性能会非常差,因为需要对所有长度的文本都建立索引,这是指数级的,在实际系统中根本不可能实现。再考虑一下另一个极端?我们对输入文本做单字切分,结果又是怎样?我们会得到大量无关的页面,不仅浪费系统性能,对相关性计算也造成了巨大的压力。  

所以,我们需要对文本做一个合适的切分。  

3.2用户满意度与粒度关系  

wWw.123456。cn

无论是建立倒排索引、还是处理输入文本,我们都需要对文本做切分,切出合适的关键字出来。为了能够使用户对查询结果满意,搜索引擎需要什么样的粒度?让我们先看一下下面几个例子:  

1.Q:“北京地图”P1:“北京市地图”P2:“北京城市地图”  

2.Q:“闹太套是神马意思”,P:”A:神呐,我骑不了这烈马。B:闹太套!”  

3.Q:“兽兽门”P:“兽兽艳照门”  

4.Q1:“工业园”Q2:“园区”P:“工业园区”  

5.Q:“ip电视”P1:“ip电视的历史”P2:“电视销售…您的IP是xxx”  

注:Q表示query,P表示页面中包含Q的内容  

Case1,要求query能找到P1和P2这样的结果,就必须对P1和P2都切出“北京”这个词来。Case2,必须把”神马”切为一个词,否则会召回P这样不相关的结果。Case3,不能把Q中的“兽兽门“切为一个词,而需要切除“兽兽”,否则就召不回”兽兽艳照门”这个结果。Case4中,对“工业园区”这样的页面,必须同时切出“工业园”和“园区”这两个重叠的词汇,才能保证Q1和Q2都能召回。Case5与Case2类似,如果把ip和电视分开切分,将召回P2这样不相关的结果。  

以上几个case,基本上概括了搜索引擎对切分粒度的要求,我们可以从两方面来描述:1)影响召回2)影响相关性  

以上从用户满意度的角度,讨论了搜索引擎与粒度的关系,当然,这是最基本的要求,在第四节我们还会对文本的粒度问题做更深入的分析。  

3.3搜索系统性能与粒度的关系  

显而易见,粒度越小,召回就越多,建立倒排索引时,索引的长度就越长;粒度的层次越多,索引的数量就越多。一个多,一个长,就对搜索系统的性能构成了极大的考验。  

一般而言,大型搜索引擎的索引都采用分布式系统。不同文本的索引,被某种hash算法“分配”到了某台机器。理论上讲,索引的数量的增长,只会造成所需机器的增长,而对整体系统性能的消耗影响比较小。所以一般搜索引擎会从性价比的角度来考虑索引数量与机器数量的折衷,也就是召回与硬件投入的折衷。粒度分析对于折衷的性价比也有一定的贡献,在粒度层次里,当粒度逐渐变小的过程中,我们并不一定对所有小粒度词都建索引,而是选择“更有可能召回相关结果”的小粒度词。词汇的什么性质决定了“更有可能召回相关结果”?我们同样会在第四节讨论。  

四.深入分析粒度的性质  

在第三节中我们反复提到:一般情况下,粒度越大,相关性越好,召回越差;粒度越小,相关性越差,召回越好。在搜索引擎中,如果做到折衷呢?基本的原则是,在系统性能可接受的前提下,尽量多召回有效结果,计算相关性时,将最相关的排在前面。  

我们如何做到将合理减小粒度,增加有效召回,又如何做到将最好的排在最前呢?这里涉及到两个问题:紧密度与重要性。  

wWw.123456。cn

既然粒度是衡量文本所含信息量的大小,那么紧密度就是描述文本所含信息紧密程度的量。再说的通俗一些,紧密度就是信息被人们表达和接受的稳定程度。稳定有两种解释,第一,稳定是相对于临时而言的。一般来说,如果信息是因为某些因素临时组合在一起,那就是不稳定的,即不紧密。比如许多动宾结构的短语(“过马路”,“踢足球”),定中结构的短语(“红苹果”,“豪华轿车”)。第二,稳定是相对于顺序不固定而言的。如果同样一个信息,内部的子信息顺序可以互换,那么这个词汇就不稳定,即不紧密。比如一些大粒度的词汇“鼠标护腕垫”、“护腕鼠标垫”。  

由此可见,我们根据词汇的紧密程度,可以将结果中表述与查询表述的一致程度联系起来,作为计算相关性的一个因素。同样,我们也可以将紧密度作为减小粒度的依据之一,词汇越不紧密,我们就有理由将其拆分为更小的粒度。  

短语的重要性,其实是短语子成分的重要性,有很多定义。其中一种被普遍接受的定义为其占短语完整含义的比例。一般情况下,偏正结构短语中,“正”的部分比较重要,比如“绿茶”中的“茶”,但也有例外,如“珊瑚虫”中的“珊瑚”。而主谓、动宾短语一般来说,都比较重要,如“打球”,“你说”。所以,短语的子成分重要性,不能仅靠语法来识别,而应综合各种因素来确定。  

假设有了词汇的子成分重要性,那么就可以帮助判断将词汇粒度变小后的语义损失风险程度(注意,这里使用了“语义损失”,而不是“转义”,想一想为什么)。这也就回答了第四节末尾的问题:语义损失越小,越有可能召回相关结果。  

五.结束语  

本文介绍了搜索引擎中的粒度问题,重点讨论了搜索引擎与短语切分粒度的关系,并进一步探讨了短语的两个重要性质——紧密度和重要性。通过本文,读者应该能够大致明白搜索引擎中关于粒度的种种。当然,本文只是对搜索引擎的粒度问题开了一个头,怎么合理的处理好粒度、在不同场合使用何种粒度,都是需要我们继续深入研究的。

相关推荐

不能提交链接的网站是不是收录会慢很多?

不能提交链接的网站是不是收录会慢很多?
在做SEO的过程中,我们总会遇到各种各样的问题,尤其是当你成为百度SEO公司的时候,我们需要深入研究相关的搜索算法,这样我们在提供相关的优化策略时,才能有针对性,我们知道,为了尝试更好的排名,我们需要深入了解页面需求和特定

怎样呵护珍贵的羊脂白玉?玉术李红为你全面解惑

怎样呵护珍贵的羊脂白玉?玉术李红为你全面解惑
在做SEO的过程中,我们总会遇到各种各样的问题,尤其是当你成为百度SEO公司的时候,我们需要深入研究相关的搜索算法,这样我们在提供相关的优化策略时,才能有针对性,我们知道,为了尝试更好的排名,我们需要深入了解页面需求和特定

如何处理网站页面访问升级?

如何处理网站页面访问升级?
在做SEO的过程中,我们总会遇到各种各样的问题,尤其是当你成为百度SEO公司的时候,我们需要深入研究相关的搜索算法,这样我们在提供相关的优化策略时,才能有针对性,我们知道,为了尝试更好的排名,我们需要深入了解页面需求和特定

如何快速增加wordpress网站流量?

如何快速增加wordpress网站流量?
在做SEO的过程中,我们总会遇到各种各样的问题,尤其是当你成为百度SEO公司的时候,我们需要深入研究相关的搜索算法,这样我们在提供相关的优化策略时,才能有针对性,我们知道,为了尝试更好的排名,我们需要深入了解页面需求和特定

哪些SEO方法是虚无缥缈的我们要远离?

哪些SEO方法是虚无缥缈的我们要远离?
在做SEO的过程中,我们总会遇到各种各样的问题,尤其是当你成为百度SEO公司的时候,我们需要深入研究相关的搜索算法,这样我们在提供相关的优化策略时,才能有针对性,我们知道,为了尝试更好的排名,我们需要深入了解页面需求和特定

百度图片想要收录和展现的图片有什么特点?

百度图片想要收录和展现的图片有什么特点?
在做SEO的过程中,我们总会遇到各种各样的问题,尤其是当你成为百度SEO公司的时候,我们需要深入研究相关的搜索算法,这样我们在提供相关的优化策略时,才能有针对性,我们知道,为了尝试更好的排名,我们需要深入了解页面需求和特定

如何查询网站是否降权?(网站降权的具体特征)

如何查询网站是否降权?(网站降权的具体特征)
在做SEO的过程中,我们总会遇到各种各样的问题,尤其是当你成为百度SEO公司的时候,我们需要深入研究相关的搜索算法,这样我们在提供相关的优化策略时,才能有针对性,我们知道,为了尝试更好的排名,我们需要深入了解页面需求和特定

敦煌玉门关游玩攻略(甘肃敦煌玉门关图片)

敦煌玉门关游玩攻略(甘肃敦煌玉门关图片)
在做SEO的过程中,我们总会遇到各种各样的问题,尤其是当你成为百度SEO公司的时候,我们需要深入研究相关的搜索算法,这样我们在提供相关的优化策略时,才能有针对性,我们知道,为了尝试更好的排名,我们需要深入了解页面需求和特定

SEO诊断网站服务器优化

SEO诊断网站服务器优化
在做SEO的过程中,我们总会遇到各种各样的问题,尤其是当你成为百度SEO公司的时候,我们需要深入研究相关的搜索算法,这样我们在提供相关的优化策略时,才能有针对性,我们知道,为了尝试更好的排名,我们需要深入了解页面需求和特定

SEO优化:内容链接应该怎么做?

SEO优化:内容链接应该怎么做?
在做SEO的过程中,我们总会遇到各种各样的问题,尤其是当你成为百度SEO公司的时候,我们需要深入研究相关的搜索算法,这样我们在提供相关的优化策略时,才能有针对性,我们知道,为了尝试更好的排名,我们需要深入了解页面需求和特定
友情链接