湖南长沙八年做网站,网络优化推广服务团队,让您小投资大回报,帮您打开网络营销财富之门!
 业务服务热线:0731-88571521  13637482004  
 


地址:长沙市韶山南路248号南园503
      室(潇湘晨报旁)
电话:0731-88571521
手机:13637482004
Q  Q:44377655 522392221
网址:www.binweb.cn
邮箱:522392221@qq.com
网络营销
长沙做网站联系电话:0731-88571521 13637482004

百度如何判断网页文章的重复度

信息来源:   发布时间:2016-7-28   浏览:

 1,网站重复内容的判断

  A,获取多个网页;

  B,分别提取网页的网页正文;

  C,从网页正文中提取一个或多个句子,并根据一个或多个句子计算网页正文句子签名;

  D,根据网页正文句子签名对多个网页进行聚类;

  E,针对每一类下的网页,计算网页的附加签名;

  F,根据附加签名判断每一类下的网页是否重复。

  通过上述方式,网页重复的判断系统及其判断方法通过包括网页正文句子签名在内的多维度签名有效且快速地判断网页是否重复。

  网站页面基本架构

  提取正文

  A,对网页进行分块;

  B,对分块后的网页进行块过滤,以获取包含网页正文的内容快;

  C,从内容块中提取网页正文。

  正文分句

  A,对网页正文进行分句;

  在本步骤中,可利用分号,句号,感叹号等表示句子完结的标志符号来对网页正文进行分句。此外,还可以通过网页正文的视觉信息来对网页正文进行分句。

  B,对分句后的网页正文进行过滤及转换;

  在步骤中,首先过滤掉句子中的数字信息;版权信息以及其他对网页重复判断不起决定性作用的信息。随后,对句子进行转换,例如,进行全角/半角转换或者繁体/简体转换,以使得转换后的句子的格式统一。

  C,从过滤及转换后的网页正文中提取最长的一个或多个句子;

  在本步骤中,过滤及转换后的网页正文提取出最长的一个句子或者做场的预定数量连续句子的组合。例如,某个网页实例中,经过过滤及转换后的某段最长,远超其他句子,因此可选择该段为网页正文句子,或者选择最长的连续句子组合作为网页正文句子。

  D,对一个或多个句子进行hash签名运算,以获取网页正文句子签名。




相关热点文章


地址:湖南长沙市韶山南路248号南园503室(潇湘晨报旁)  网站ICP备案号:湘ICP备13006070号  版权所有:长沙斌网网络工作室
咨询电话:0731-88571521   13637482004
业务 QQ:客服一 1306053142 客服二 1320506001 技术/售后 522392221 高级顾问 44377655
服务邮箱:fanbin@binweb.cn   522392221@qq.com
官方网址:www.binweb.cn   www.pk0731.com
旗下网站:斌网网络  长沙信息处  佛佛网  晒土货网

在线客服1 在线客服2 技术咨询 资深顾问