什么是SEO信息指纹,如何计算网站页面重复度?
2022-08-26 10:04:29 seo资讯 【 字体:大 中 小 】
在做SEO的路上,我们经常会遇到一个问题,就是写原创文章。 很多人认为,从网上各种文章中挑选的段落可以组合两次,创造出全新的原创文章。 内容,但实际上,有时候,我们想象的并没有那么简单,尤其是随着搜索引擎算法的不断完善,对方会有很多策略来处理这个问题,比如:文件信息指纹的验证。
那么,什么是SEO信息指纹以及如何计算网站页面重复?
根据以往SEO观察的经验,我们收集整理了一篇优质内容分享给大家,供大家参考。 内容如下:
关键词:搜索引擎,复制网页,算法,信息指纹,指纹,关键字
搜索引擎一般根据idea判断复制的网页:计算 每个网页的一组信息指纹(Fingerprint),如果两个网页有一定数量的相同,则认为两个网页的信息指纹高度重叠,即两个网页的内容 是重复的。
很多搜索引擎对内容抄袭的判断方法不同,主要有以下两点不同:
WwW。123456.Cn1. 计算指纹的算法;
2. 用于判断信息指纹相似度的参数。
在描述具体算法之前,先澄清两点:
1. 什么是信息指纹?
信息指纹是从网页中的文本信息中提取一定的信息,可以是网页中的关键字、词、句子或段落及其权重等,并对其进行加密,如 MD5加密,这样就形成了一个字符串。 信息指纹就像人的指纹,只要内容不同,信息指纹就不同。
WwW。123456.Cn2. 算法提取出来的信息并不是针对整个网页,而是在过滤掉网站的导航栏、logo、版权等信息(这些被称为网页的“噪音”)等网站的常用部分后剩下的 文本。
分段签名算法
该算法将网页按照一定的规则分成N个段,对每个段进行签名,形成每个段的信息指纹。 如果这N个信息指纹中有M个相同(m是系统定义的阈值),则认为两者是重复网页。
这个算法对于网页的小规模判断和复制来说是一个不错的算法,但是对于像谷歌这样的海量搜索引擎来说,算法的复杂度是相当高的。
基于关键字的网页复制算法
google等搜索引擎在抓取网页时会记下以下网页信息:
1、出现在 网页(中文分词技术)和每个关键词的权重(关键词密度);
2. 提取每个网页的元描述或 512 字节的有效文本。
关于第二点,baidu和google不一样,google提取你的metadescrīption,如果没有512字节与query关键字相关,百度直接提取后者。 用过的人都知道。
在下面的算法描述中,我们约定了几个信息指纹变量:
WwW。123456.CnPi代表第i个网页;
网页权重最高的N个key 单词组成集合Ti={t1,t2,...tn},其对应的权重为Wi={w1,w2,... wi}
摘要信息用Des(Pi)表示。 n个关键字组成的字符串用Con(Ti)表示,n个关键字排序形成的字符串用Sort(Ti)表示。
以上信息指纹均采用MD5函数加密。
根据关键字复制网页的算法有以下5种:
1,MD5(Des(Pi))=MD5(Des(Pj)),表示 摘要信息完全相同,i和j这两个网页被认为是重复网页;
2、MD5(Con(Ti))=MD5(Con(Tj)),两个网页的前n个关键词及其权重如果排序相同,则认为是副本 网页的;
WwW。123456.Cn3, MD5(排序(i))=MD5(Sort(Tj)),两个网页前n个关键词一样,权重可以不一样,也认为是复制网页。
4、MD5(Con(Ti))=MD5(Con(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某个阙值a,则认为两者是复制网页。
5、MD5(Sort(Ti))=MD5(Sort(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某个阙值a,则认为两者是复制网页。
关于第4和第5的那个阙值a,主要是因为前一个判断条件下,还是会有很多网页被误伤,搜索引擎开发根据权重的分布比例进行调节,防止误伤。
这个是北大天网搜索引擎的去重算法(可以参考:《搜索引擎--原理、技术与系统》一书),以上5种算法运行的时候,算法的效果取决于N,就是关键词数目的选取。当然啦,选的数量越多,判断就会越精确,但是谁知而来的计算速度也会减慢下来。所以必须考虑一个计算速度和去重准确率的平衡。据天网试验结果,10个左右关键词最恰当。
后记
WwW。123456.Cn以上肯定无法覆盖一个大型搜索引擎复制网页的所有方面,他们必定还有一些辅助的信息指纹判断,本文作为一个思路,给做搜索引擎优化的一个思路。
猜你喜欢
建站时为什么要注重网站的排版
百家号怎么突然不推荐?
SEO运营,如何有效与网站编辑沟通?
外链的出现时间对SEO有影响吗?
网站内部孤立页面,是否会传递权重?
域名过期和备案取消对于seo的影响
企业站,联系方式是网站排名要素吗?
索引页面波动太大,一会多一会少,为什么?
育儿公众号,新手要怎么运营推广?
网站中“阅读”更多的标签,还可以用吗?
泰国情降真的可以让两个人复合吗?
建站时为什么要注重网站的排版
为何和田玉“独籽”的价更高?玉術·李红给出了答案
世界上收入最高的医生:大多来自美国,陈松雄上榜
百家号怎么突然不推荐?
SEO运营,如何有效与网站编辑沟通?
乳夹是什么?乳夹如何正确使用?
俄料相对于和田玉的优势有哪些?玉术李红给出了答案
外链的出现时间对SEO有影响吗?
如何收藏明清玉和玩高古玉?玉術李红给出了答案