一、 分析网站日志,看是否有被蜘蛛爬过
作为站长一定要学会网站日志的分析,网站日志里面可以告诉我们表面看不到的隐藏问题。
1)、如果未被收录的页面未被蜘蛛爬行
页面没有被Baiduspider爬行,那么你可以适当的给该页面做一些外链来引导蜘蛛过来爬行,也可以给搜索引擎提交该页面。
2)、如果页面已经被Baiduspider爬行过了
页面被爬行也没被收录,那么就可能存在的因素:
1、 第一次被Baiduspider爬行,从百度的综合算法来看该页面的价值性极低,再考核要不要创建索引。
2、 第二次被Baiduspider爬行,该页面从始至终都未有任何的变动,决定对此页面暂停分析。
3、 第三次被Baiduspider爬行,该页面还是没变动,并且这么长时间也未出现其它的附加价值(附加价值:评论,分享,被转发等等),决定不予收录。
要知道Baiduspider也是很忙的,没有那么多的闲工夫天天来爬行你这些未收录的页面,所以,当出现页面长时间都不被百度收录的话,那么就要适当的给该页面增加一些附加价值或者对该页面进行重新的进行修改。你可以对文本新增一些图片,视频或者内容,也可以对标题进行再次编辑。总之,要让Baiduspider再次过来爬行的时候,返回的状态码不是一个无变化的状态,这样你的页面被收录的几率就大大的提升了。
第二、 是否robots设置错误,主动屏蔽Baiduspider
Robots的设置也是非常重要的,这个很多人可能对这些还不了解。建议大家可以到百度站长工具资讯里面看,那里面有详细的教程。若是自己robots设置的问题,那么自己进行纠正后,再在百度站长工具后台里面进行更新robots这样的话好让百度蜘蛛重新更改状态。
第三、 网站页面是否存在敏感词
如今越来越多的词对搜索引擎来说都有一定的敏感,敏感词很有可能造成你的页面不被收录,有时候也会造成网站被将去或被k。所以站长们再建设内容的时候一定要注意不要在文中出现敏感词。
第四、 你的页面内容是否是采集的
百度老大之前有表明过,数据库里面肯定会存在完完全全的重复的内容。但是也会有一定的限制。比如一篇文章上限被收录20篇,那么当已经被收录20篇了,那么无论是你还是他人在转载更新的话也不会被收录。