昨天和主管聊搜索引擎蜘蛛抓取网页的特点,主管一句话“百度蜘蛛抓取网页层次浅,如果用robots.txt文件静止,则导致网站收录停止”则让我 心里有个疑问,难道真的是这样的?我的博客是8.12建立了,建立后写了几篇原创文章同时转载了部分文章,有几篇文章还在站长之家、站长网等网站投稿了, 外部链接也做了点,可是百度只收录首页,死活不收录其他页面,而且首页快照也不更新。联系到这句话,因为博客的robots.txt文件屏蔽了css文件 (Disallow:/*.css$),所以昨晚决定发篇文章,修改下robot.txt文件,等待百度更新,今天观察结果。
首先、通过站长工具-seo综合查询结果如下图:
百度收录量:总收录量:4;今日收录:0;最近一周:1;最近一月:4。
百度反向链接:661个。
百度排名:信阳seo:24;信阳网站优化:18;信阳网站推广:77
第二、看搜索引擎收录历史数据。
从2011-08-13到2011-08-31百度对博客收录量从0增加到1后维持不变。相比情况下,google收录量则从0增加82。其他搜索引擎大都停止收录。
再看搜索引擎反向链接的历史数据。
从2011-08-13到2011-08-31百度反向链接从1增加到131,google反向链接从0增加到1(google反向链接增加较慢),雅虎反向链接则从0增加到21,有道反向链接一直为0。
从百度反应来看,robots.txt文件屏蔽css可能就是导致百度对网站停止收录的原因了。晚上与朋友聊天,朋友说了个观点:因为博客的css 文件(http://www.0376seo.net/wp-content/themes/prowerV3/prowerV3/style.css) 里有隐藏代码(“Display:none;”)一旦屏蔽搜索引擎蜘蛛抓取就会被搜索引擎判定为作弊。本来css文件隐藏代码是出于页面布局或其他需要而 不得以为之的策略,一旦屏蔽蜘蛛抓取,当蜘蛛抓取页面时,发现隐藏文字,而此时又无法抓取css文件,所以就判定为作弊。
在博客的css文件中有二处隐藏代码:
#nav li ul,.says{display:none;}
*html#go_top{display:none;}
对照页面代码找到具体的xhtml代码:
<div id="go_top"><em></em><a href="#">返回顶部</a></div>
<span class="says">说道:</span>
最后百度搜索“robotscssseo”找到seowhy的一个帖子“robots.txt屏蔽css文件的疑问……作弊有关”。
今天就这个问题我请教了seo界的一些达人,答案不一。但大多认为这是作弊的打击对象。
其中有个我个人认为比较合理的答案写出来供大家参考:
“robots.txt文件能阻止搜索引擎收录,但依然能读取,结果还是会被判定为作弊”。
我的博客在建立之初,robots.txt文件是参考搜索引擎上一些博客的写法,不假思索地照抄进来,导致被百度判定为作弊。
试验:
2个新站,采用同样的系统(dedecms),空间相同配置,域名年龄相近,一个设置robots.txt文件禁止抓取css,另一个则不禁止。然后同时提交到百度,持续一段时间观察百度反应。