1、记录搜索引擎蜘蛛的不重复抓取量
上一步我们把蜘蛛的抓取量数据给分析出来了,然后我们要进行去重,也就是搜索引擎的唯一不重复抓取量,其实对于收录来说,许多页面只要抓取一次就可以了,可是在实际操作的过程当中,许多页面都是被重复抓取的,谷歌的技术比较先进一些,重复抓取率也许会低一些,可是百度等搜索引擎,重复抓取率却非常高,你通过日志分析就可以看出来了,一天如果抓取量上百万,可能好几万次都是抓取首页的,所以许多数据你一定要去分析的,当你分析了后,你才会知道问题的严重性。
2、每个目录、每个搜索引擎的抓取量
上边两步把总体抓取量、不重复抓取量记录下来了,然后我们要分析出每个搜索引擎对每一个目录的抓取情况是怎么样的,这样利于进行分块优化,例如当你网站流量上升时,你可以知道是哪个目录的流量上升了,然后再往下推,看看是哪个目录的抓取量上升了,哪个目录的抓取量下降了,为什么下降,都可以进行分析的,然后在网站中进行适当的链接结构调整,例如使用nofollow标签等。
3、每个搜索引擎的总体抓取量(以及趋势)
在日志文件中,明确的记录了每个搜索引擎的抓取量,例如百度、谷歌、搜狗等搜索引擎的抓取记录,我们都可以进行记录,使用DOS命令或者Linux命令都可以去实现的,搜索引擎的收录是由抓取量以及文章质量来决定的,当文章质量不变的情况下,蜘蛛抓取量越大,那么收录的就会越多,我们在进行日志分析 时候,一定要清楚的知道蜘蛛每天的抓取量到底是一个什么情况,而且每天都要记录,也许绝对值说明不了什么,我们可以去看它的趋势,当某一天抓取量的趋势在下降时,我们就要去找原因了。
4、统计搜索引擎蜘蛛来的次数、来的时间
我们可以使用一些日志分析工具,设定一个标准,例如光年日志分析工具,可以统计出每个搜索引擎蜘蛛每天来的次数,一天一共在我们网站停留了多久,有没有IP蜘蛛一天24小时都在我们网站不停的抓取,这样的蜘蛛越多越好,往往是你网站权重提升的表现。这样的数据可以每天都记录下来,在一定的时间段内,进行对比分析,看看停留的时间是不是增加了,来的次数是不是增多了,这样可以判断出网站权重是上升还是下降。
5、统计搜索引擎抓取的状态码
当搜索引擎抓取了你的页面后,不但抓取了你的内容,而且还会有一个抓取返回码的,这些返回码我们要记录下来,特别是一些类似301、404、500等这些状态码,我们从这些状态码中我们找出网站的一些潜在的问题,例如为什么会出现很多404页面,是程序原因,还是搜索引擎在抓取外链的时候提取错误,其实我们可以在谷歌管理员工具中看到这些数据的,里边还会提示你的错误的404页面出现在哪里,对于一些301状态码我们也要注意了,看下这些301是不是按照我们所希望的那样跳转的,网站中要尽量的少用跳转,页面在跳转的时候,往往会延长页面的加载时间,最常见的301可能就是网页URL不带"/"的跳转到带“/”的情况了,我们在网站中,要尽量的避免出现这样的情况。