注册 登录
当前所在位置: 首页 > seo资讯 > 正文

什么是SEO信息指纹,如何计算网站页面重复度?

2022-08-26 10:04:29 seo资讯 【 字体:

在做SEO的路上,我们经常会遇到一个问题,就是写原创文章。 很多人认为,从网上各种文章中挑选的段落可以组合两次,创造出全新的原创文章。 内容,但实际上,有时候,我们想象的并没有那么简单,尤其是随着搜索引擎算法的不断完善,对方会有很多策略来处理这个问题,比如:文件信息指纹的验证。

那么,什么是SEO信息指纹以及如何计算网站页面重复?

根据以往SEO观察的经验,我们收集整理了一篇优质内容分享给大家,供大家参考。 内容如下:

关键词:搜索引擎,复制网页,算法,信息指纹,指纹,关键字

搜索引擎一般根据idea判断复制的网页:计算 每个网页的一组信息指纹(Fingerprint),如果两个网页有一定数量的相同,则认为两个网页的信息指纹高度重叠,即两个网页的内容 是重复的。

很多搜索引擎对内容抄袭的判断方法不同,主要有以下两点不同:

WwW。123456.Cn

1. 计算指纹的算法;

2. 用于判断信息指纹相似度的参数。

在描述具体算法之前,先澄清两点:

1. 什么是信息指纹?

信息指纹是从网页中的文本信息中提取一定的信息,可以是网页中的关键字、词、句子或段落及其权重等,并对其进行加密,如 MD5加密,这样就形成了一个字符串。 信息指纹就像人的指纹,只要内容不同,信息指纹就不同。

WwW。123456.Cn

2. 算法提取出来的信息并不是针对整个网页,而是在过滤掉网站的导航栏、logo、版权等信息(这些被称为网页的“噪音”)等网站的常用部分后剩下的 文本。

分段签名算法

该算法将网页按照一定的规则分成N个段,对每个段进行签名,形成每个段的信息指纹。 如果这N个信息指纹中有M个相同(m是系统定义的阈值),则认为两者是重复网页。

这个算法对于网页的小规模判断和复制来说是一个不错的算法,但是对于像谷歌这样的海量搜索引擎来说,算法的复杂度是相当高的。

基于关键字的网页复制算法

google等搜索引擎在抓取网页时会记下以下网页信息:

1、出现在 网页(中文分词技术)和每个关键词的权重(关键词密度);

2. 提取每个网页的元描述或 512 字节的有效文本。

关于第二点,baidu和google不一样,google提取你的metadescrīption,如果没有512字节与query关键字相关,百度直接提取后者。 用过的人都知道。

在下面的算法描述中,我们约定了几个信息指纹变量:

WwW。123456.Cn

Pi代表第i个网页;

网页权重最高的N个key 单词组成集合Ti={t1,t2,...tn},其对应的权重为Wi={w1,w2,... wi}

摘要信息用Des(Pi)表示。 n个关键字组成的字符串用Con(Ti)表示,n个关键字排序形成的字符串用Sort(Ti)表示。

以上信息指纹均采用MD5函数加密。

根据关键字复制网页的算法有以下5种:

1,MD5(Des(Pi))=MD5(Des(Pj)),表示 摘要信息完全相同,i和j这两个网页被认为是重复网页;

2、MD5(Con(Ti))=MD5(Con(Tj)),两个网页的前n个关键词及其权重如果排序相同,则认为是副本 网页的;

WwW。123456.Cn

3, MD5(排序(i))=MD5(Sort(Tj)),两个网页前n个关键词一样,权重可以不一样,也认为是复制网页。  

4、MD5(Con(Ti))=MD5(Con(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某个阙值a,则认为两者是复制网页。  

5、MD5(Sort(Ti))=MD5(Sort(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某个阙值a,则认为两者是复制网页。  

关于第4和第5的那个阙值a,主要是因为前一个判断条件下,还是会有很多网页被误伤,搜索引擎开发根据权重的分布比例进行调节,防止误伤。  

这个是北大天网搜索引擎的去重算法(可以参考:《搜索引擎--原理、技术与系统》一书),以上5种算法运行的时候,算法的效果取决于N,就是关键词数目的选取。当然啦,选的数量越多,判断就会越精确,但是谁知而来的计算速度也会减慢下来。所以必须考虑一个计算速度和去重准确率的平衡。据天网试验结果,10个左右关键词最恰当。  

后记  

WwW。123456.Cn

以上肯定无法覆盖一个大型搜索引擎复制网页的所有方面,他们必定还有一些辅助的信息指纹判断,本文作为一个思路,给做搜索引擎优化的一个思路。  

相关推荐

泰国情降真的可以让两个人复合吗?

泰国情降真的可以让两个人复合吗?
在做SEO的路上,我们经常会遇到一个问题,就是写原创文章。很多人认为,从网上各种文章中挑选的段落可以组合两次,创造出全新的原创文章。内容,但实际上,有时候,我们想象的并没有那么简单,尤其是随着搜索引擎算法的不断完善,对方

建站时为什么要注重网站的排版

建站时为什么要注重网站的排版
在做SEO的路上,我们经常会遇到一个问题,就是写原创文章。很多人认为,从网上各种文章中挑选的段落可以组合两次,创造出全新的原创文章。内容,但实际上,有时候,我们想象的并没有那么简单,尤其是随着搜索引擎算法的不断完善,对方

为何和田玉“独籽”的价更高?玉術·李红给出了答案

为何和田玉“独籽”的价更高?玉術·李红给出了答案
在做SEO的路上,我们经常会遇到一个问题,就是写原创文章。很多人认为,从网上各种文章中挑选的段落可以组合两次,创造出全新的原创文章。内容,但实际上,有时候,我们想象的并没有那么简单,尤其是随着搜索引擎算法的不断完善,对方

世界上收入最高的医生:大多来自美国,陈松雄上榜

世界上收入最高的医生:大多来自美国,陈松雄上榜
在做SEO的路上,我们经常会遇到一个问题,就是写原创文章。很多人认为,从网上各种文章中挑选的段落可以组合两次,创造出全新的原创文章。内容,但实际上,有时候,我们想象的并没有那么简单,尤其是随着搜索引擎算法的不断完善,对方

百家号怎么突然不推荐?

百家号怎么突然不推荐?
在做SEO的路上,我们经常会遇到一个问题,就是写原创文章。很多人认为,从网上各种文章中挑选的段落可以组合两次,创造出全新的原创文章。内容,但实际上,有时候,我们想象的并没有那么简单,尤其是随着搜索引擎算法的不断完善,对方

SEO运营,如何有效与网站编辑沟通?

SEO运营,如何有效与网站编辑沟通?
在做SEO的路上,我们经常会遇到一个问题,就是写原创文章。很多人认为,从网上各种文章中挑选的段落可以组合两次,创造出全新的原创文章。内容,但实际上,有时候,我们想象的并没有那么简单,尤其是随着搜索引擎算法的不断完善,对方

乳夹是什么?乳夹如何正确使用?

乳夹是什么?乳夹如何正确使用?
在做SEO的路上,我们经常会遇到一个问题,就是写原创文章。很多人认为,从网上各种文章中挑选的段落可以组合两次,创造出全新的原创文章。内容,但实际上,有时候,我们想象的并没有那么简单,尤其是随着搜索引擎算法的不断完善,对方

俄料相对于和田玉的优势有哪些?玉术李红给出了答案

俄料相对于和田玉的优势有哪些?玉术李红给出了答案
在做SEO的路上,我们经常会遇到一个问题,就是写原创文章。很多人认为,从网上各种文章中挑选的段落可以组合两次,创造出全新的原创文章。内容,但实际上,有时候,我们想象的并没有那么简单,尤其是随着搜索引擎算法的不断完善,对方

外链的出现时间对SEO有影响吗?

外链的出现时间对SEO有影响吗?
在做SEO的路上,我们经常会遇到一个问题,就是写原创文章。很多人认为,从网上各种文章中挑选的段落可以组合两次,创造出全新的原创文章。内容,但实际上,有时候,我们想象的并没有那么简单,尤其是随着搜索引擎算法的不断完善,对方

如何收藏明清玉和玩高古玉?玉術李红给出了答案

如何收藏明清玉和玩高古玉?玉術李红给出了答案
在做SEO的路上,我们经常会遇到一个问题,就是写原创文章。很多人认为,从网上各种文章中挑选的段落可以组合两次,创造出全新的原创文章。内容,但实际上,有时候,我们想象的并没有那么简单,尤其是随着搜索引擎算法的不断完善,对方
友情链接