第一:网站内容重复的情况一般有哪些
网站重复内容一般会有以下几种情况:
1、同样一篇文章出现多个URL,即使这篇文章属于原创,也会被百度给予惩罚
2、网站内容多为采集,这种网站内容重复会被当做采集站直接被百度处理掉,百度新的绿萝算法就是专门打击采集站点的。
3、网站的固定版块出现次数太多,很多网站的右侧总是固定放一些版块或栏目,这些栏目的内容从来不进行更新,或者各个页面的右侧都是前篇一律的内容,就会造成页面重复度高。
4、未设置404错误页面,当我们删除某一个页面的时候,一定要用404状态码给予用户和蜘蛛一定的提示,如果代码设置错误,那么删除的页面在蜘蛛那里是假想存在的,由此一来就会多次收录。
5、动态页面和静态并存,百度爬去目录时收录了大量动态页面
6、网站内容以图片为主,文字很少,很多图片都是共用一个URL地址,这样一来蜘蛛在索引的时候很难保证不被重复收录。
第二:如何解决网站内容重复的问题
1、增加原创内容,减少采集内容
对于网站内容多为采集或简单伪原创的网站,笔者建议增加原创文章的内容,宁可百度收录少一些,也不要让百度把之前收录的文章吐出来。
2、采集内容,也有进行低度的伪原创
这一点相信大家都用过,把别人的文章搬过来稍加改动,蜘蛛最厌烦这样的文章了。
3、每一个页面都配上独立的标题
为每一个页面都配上独立的标题,尤其是频道页,这样可以让蜘蛛在检索的时候注意到它的独有性,从而得到更好地权重分配和优化优势。
4、网站固定栏目内容随机展示
可以根据正文的关键词,随机调用右侧栏目的文章内容,让每一个页面都有不一样的内容,避免大量页面相似度高的情况出现。
5、减少多重URL
也许你的程序即可实现动态也可实现静态,或者之前是静态现在变为动态等情况,出现一个网页有多个URL。两种都是指同一个网页,但却被搜索引擎以不同的URL抓取,这种情况我们尽量使用一种URL格式。
6、修改meta标签
一个好的描述对于蜘蛛的收录判断起着重大的影响作用,但是现在很多站点采用的都是CMS程序,无论大规模的实现meta标签独立化,所以我个人建议大家手动修改一部分meta标签。
7、修改CSS样式表
很多新手站长为了减少自己建设网站的难度,有时候就会去下载别人的网站主页或是内容页,然后稍微修改一下就放到自己的网站中了,但是新手站长不要忘了,下载下来的样本页中有很多相似的CSS样式表,如果不加修改必然会让网站重复度升高。当然能自己做就自己坐,保持特色是王道。
8、设置404页面
设置404页面可以告知用户和搜索引擎某些页面不存在了,防止搜索引擎收录大量死链。
9、减少无效内容之间的链接
很多时候我们会对之前的网站结构或是内容页进行修改,而那些被删除的页面一定要用管理员工具,以免蜘蛛重复抓取,谨防形成类似于状态码200的情况。