首先,我们应该知道什么情况会产生重复内容?
1、 重复更新内容:这是网站编辑在上传文章的过程中多次上传同一篇文章所致,归根到底是没有写重复标题验证功能。
2、网站内容多为采集,这种网站内容重复会被当做采集站直接被百度处理掉,百度新的绿萝算法就是专门打击采集站点的。
3、列表翻页和内容分页:列表翻页和内容分页标题相同,也会被判定为相同内容。
4、 多处调用同一篇内容:动态地址伪静态会产生两个不同URL但内容相同的情况,同一级栏目互相调用文章也会产生这样的情况。
5、网站的固定版块出现次数太多,很多网站的右侧总是固定放一些版块或栏目,这些栏目的内容从来不进行更新,或者各个页面的右侧都是前篇一律的内容,就会造成页面重复度高。
6、未设置404错误页面,当我们删除某一个页面的时候,一定要用404状态码给予用户和蜘蛛一定的提示,如果代码设置错误,那么删除的页面在蜘蛛那里是假想存在的,由此一来就会多次收录。
7、生成的RSS订阅。关于RSS订阅大家都很熟悉,对于一些大型新闻网站或是个人博客之类的网站都会利用RSS订阅来生成个人站点的内容,然而这些个人站点的内容必然会被他人转载,这就会造成原始源信息和其他网站内容造成重合,蜘蛛重复收录也就成了可能。
其次,知道了网站重复内容的产生,那么我们应该如何正确处理重复内容呢?
1、减少采集内容的频率,增加原创内容。
这点很容易理解,世上没有不劳而获的东西,如果网站的发展要依靠采集的话,那么这个网站也就没有了继续生存下去的希望。对于网站内容多为采集或简单伪原创的网站,建议增加原创文章的内容,宁可百度收录少一些,也不要让百度把之前收录的文章吐出来。
2、网站固定栏目内容随机展示
可以根据正文的关键词,随机调用右侧栏目的文章内容,让每一个页面都有不一样的内容,避免大量页面相似度高的情况出现。
3、减少无效或是重复的URL。
在我们从网站开始的建设过程当中就尽可能的使URL统一,切勿使用动态页面进行连接,因为就蜘蛛的角度想问题,它是不喜欢动态页面的。
4、页面设置独立的Meta标签
关键词、标签、描述,每一个页面都需要不同,可以采用手动修改,或者根据一定的规则设置。
5、减少无效内容之间的链接。
很多时候我们会对之前的网站结构或是内容页进行修改,无形中就会遗留下一部分被删除的内容,对于这些东西大家要及时的清理,利用管理员工具去掉这些无效的链接,以免蜘蛛重复抓取,从而形成类似于状态码200的情况。
6、设置404页面
告知用户和搜索引擎某些页面不存在了,防止搜索引擎收录大量死链。