第一:孤岛网页是很难被搜索引擎抓取,孤岛网页指的是没有任何反向链接的网页,如果新站没有任何被收录的网站的链接指向新站,那么该新站实际上是互联网的一个孤岛,搜索引擎无从发现该网站的存在。
第二:该网站的服务器IP曾经被惩罚
这是一个很重要的方面,这是因为如果该IP下的网站多次作弊,导致该服务器IP被惩罚,那么,百度很可能不再爬出爬虫来爬行这个服务器IP,那么,建立在该服务器IP下的网站就再也没有见天日的机会。
第三:服务器不稳定,或者经不起爬虫采集的压力
对于新站来说这是致命的,很容易导致蜘蛛放弃了该新站,不再进行爬行收录。
第四:网站中的网页性质及文件类型是搜索引擎无法识别的
很多人为了网站的美观好看,采用了大量的如flash、JS跳转、某些动态网页、frame等,这些东西导致搜索引擎无法识别,自然也不再收录。
第五:网站用robots协议拒绝搜索引擎抓取
有时候因为站长的粗心,设置了错误的robots协议,从而拒绝了搜索引擎的抓取。
第六:作弊和非法的网页
使用关键词作弊,网页的关键词和内容严重不匹配,或者非法内容的网页;网页的标题没有实际含义的网站等等,也是搜索引擎拒绝的对象。