声讨百度爬虫不遵守搜索引擎robots.txt协议

在昨天画了一张2009年的情人节贺卡，几个小时后发现百度已经收录了。今晚在用百度的图片搜索找情人节素材时发觉自已画的那个贺卡被百度的图片搜索收录。我清楚记得自已站点的robots.txt是禁止搜索引擎收录我的上传的图片目录。
有下以为证：

在百度的图片搜索中，关键词为“2009情人节贺卡”时排第一个。

而我的robots.txt文件内容为：

#
# robots.txt for PHPWIND BOARD
# Version 4.x
#

User-agent: *
Disallow: /oldblog/
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /cate.php
Disallow: /article.php
Disallow: /blog.php

https://tsov.net/robots.txt

百度官方帮助文档里有这一句话：百度严格遵循搜索引擎Robots协议

这就是百度行为操守？
对于百度行为操守质疑的相关内容有：
http://fairyfish.net/2008/09/10/baidu-never-follow-robots-txt/
http://www.kenengba.com/post/517.html

百度的帮助的说明：
http://www.baidu.com/search/guide.html#1

相关文章: 如何使用google analytics来跟踪搜索引擎蜘蛛的爬行日志

标签：robots、协议、爬虫

评论数：2

发布于：2009-02-11 22:27:57

声讨百度爬虫不遵守搜索引擎robots.txt协议

当前共有2条评论，我也要发表：