一、蜘蛛爬取原理
大自然的蜘蛛我相信大家都看到过,它是通过网来进行爬取的。而搜索引擎的蜘蛛是通过链接来爬取的。蜘蛛在网页上爬取到一个链接就会把它放到一个单独的数据库。这些数据库都是有特性的,特性就是域名的后缀。
常用的后缀有.net、.org、.com、.cn、.com.cn等等。
蜘蛛会把这些域名后缀的链接放到一个数据库,然后逐个去爬取,这可能是很多站长朋友的一个误区。蜘蛛是不会像用户一样直接点击进入的,如果那样,那么这个蜘蛛就可以一直在外面不用回家了。因为每个网页都是有链接不断的循环的,爬不完的。
百度反向链接蜘蛛也是会爬取的,有些朋友称之为相关域。百度相关域的意思就是说,只有一个页面被百度收录了,并且这个页面包含你的域名,比如:www.yjszhukao.com ,这不是一个超链接,但是只有百度收录了我写的这篇文章的页面,那么蜘蛛是会把这个域名列入它的数据库的,然后也会爬取。并且也会计算权重,这就是我们所说的链接诱饵,用来吸引蜘蛛。
二、如何加快百度快照以及收录
百度快照的更新是因为蜘蛛重新抓取了你网站的页面,发现你的内容有改动,所以就会返回快照日期。当然有些朋友就会说,我的网站一个多月甚至更久都没有更新过,但是我的快照依然每天更新,这个你怎么解释。这个是因为你的网站权重高,蜘蛛经常来你的网站,这个它也是会不断的返回数据,更新你的百度快照。所以总结一点,想让快照更新快,其中很重要的一点就是吸引蜘蛛来到你的网站,如果蜘蛛都不来,那么百度如何更新?除非你和李彦宏有一腿(后面省略300字)。
那么如何加快收录呢?不知道各位站长朋友是否发现这样一个现象。查看IIS日志的时候,发现某个页面被蜘蛛爬取过,但是没有收录,过了一阵子又发现被收录了。这是为什么?这个原因很简单,蜘蛛不可能来一次就爬取你网站里面的所有页面,也不可能把所有爬取的都收录,那样数据量太庞大,服务器压力太大。蜘蛛来到网站以后会把页面下载到它自己的数据库,然后进行分析。分析内容,然后计算一个分数,再来评分。那么想要加快收录,结合我上面说的引蜘蛛,让蜘蛛不断的来到你的网站,并且更新一些用户度了有用的文章。不一定要是原创,或者伪原创。
很多朋友不解,都说网站更新要原创和伪原创,你这样复制人家的,百度会K掉你的,重复了。其实并非这样,说到这里,这就涉及到一个用户跳出率的概念了。百度收录一篇文章,也是会通过用户的喜好来判断的,如果你这篇文章有用,用户喜欢,那么一样会收录的,因为用户有需求。只有呈现给用户好的,才叫高质量的文章,而并非是你自己改改标题,颠倒一下文章顺序,就是一篇好的文章。
始终记住一点,搜索引擎是为用户服务的,一切符合用户的设计,就是符合搜索引擎。