做seo的朋友都知道,研究se爬行规律对于网站优化意义重大,特别是对百度蜘蛛Baiduspider的研究。本文解释一下百度蜘蛛爬行后返回代码代表的具体含义:
2xx成功
200正常;请求已完成。
201正常;紧接POST命令。
202正常;已接受用于处理,但处理尚未完成。
203正常;部分信息—返回的信息只是一部分。
204正常;无响应—已接收请求,但不存在要回送的信息。
3xx重定向
301已移动—请求的数据具有新的位置且更改是永久的。
302已找到—请求的数据临时具有不同URI。
303请参阅其它—可在另一URI下找到对请求的响应,且应使用GET方法检索此响应。
304未修改—未按预期修改文档。
305使用代理—必须通过位置字段中提供的代理来访问请求的资源。
306未使用—不再使用;保留此代码以便将来使用。
4xx客户机中出现的错误
400错误请求—请求中有语法问题,或不能满足请求。
401未授权—未授权客户机访问数据。
402需要付款—表示计费系统已有效。
403禁止—即使有授权也不需要访问。
404找不到—服务器找不到给定的资源;文档不存在。
407代理认证请求—客户机首先必须使用代理认证自身。
410请求的网页不存在(永久);
415介质类型不受支持—服务器拒绝服务请求,因为不支持请求实体的格式。
5xx服务器中出现的错误
500内部错误—因为意外情况,服务器不能完成请求。
501未执行—服务器不支持请求的工具。
502错误网关—服务器接收到来自上游服务器的无效响应。
503无法获得服务—由于临时过载或维护,服务器无法处理请求。
比如说:
2008-05-1000:28:03W3SVC818374222.214.218.36GET/flash/1622.html-80-221.10.254.26Baiduspider+(+[url]http://www.baidu.com/search/spider.htm[/url])2000021089
如果你的域名是[url]www.pipiflash.com[/url],这就意味着百度蜘蛛在2008-05-1000:28:03爬过[url]http://www.pipiflash/flash/1622.html[/url]这一页,2000021089中的200协议代码代表了请求已完成也就是它发现这页并以入库了。根据这个我们可以多查看iis日志,研究蜘蛛爬行的路径,找出自己网站存在的问题,进而改正。
比如说:
2008-10-1106:05:56W3SVC166218780359.60.152.106GET/default.asp-80-61.135.168.47Baiduspider+(+http://www.baidu.com/search/spider.htm)20000
1、59.60.152.106这个就是你的网站的IP。
2、61.135.168.47这个是爬行你网站的蜘蛛IP。
3、Baiduspider代表代表百度蜘蛛,我们通常以此确定是哪个搜索引擎蜘蛛。
4、/default.asp就代表百度蜘蛛访问的网页
5、2008-10-1106:05:56是百度蜘蛛爬行的日期与时间
6、代码中的200就代表百度蜘蛛爬行后返回HTTP状态代码,代码中可以了解蜘蛛爬行后的反映。
7、W3SVC962713505这个我们不用管。
8、80代表WEB服务器的端口。
如果你的网站是http://www.lj716.cn这就意味着百度蜘蛛在2008-10-1106:05:56爬过http://www.lj716.cn/default.asp这一页,200代表了正常;请求已完成。对于日志中的内容,我们之需要关心的是3和5项,3代表的是网页,不需要在说明,下面重点说一下第五项,我们要根据第五项来即使调整网站。
返回的http状态诸如200064分析说明
在百度研究院的论坛里看到一位版主有这样的一段解释:
蜘蛛在IIS里的行为200064的解释:
根据我前段时间到现在的观察,虽然没有足够的证据,但是基本上可以肯定在IIS中,如果蜘蛛后面的号码出现200064,那么网站中的这个单页面就会在搜索引擎中消失了.我被K的页面后面都写着200064,不知道大家是否认同,还有其他看法,当然,我说这个不够绝对,因为我也有一个页面后面显示着200064但是在搜索引擎中依旧可以找到.这也说明着问题,但大多200064行为的网页就已经没有了.
所以我觉得蜘蛛的200064行为可以被解释为清除数据。
这个解释,目前看上去还是有可信度的。我认为,抓取状态成200064是不正常的抓取,正常的抓取是成功标志20000,当变成了200064的状态时说明搜索引擎在抓取这个页面的时候出现了错误,没有正常的进行常规抓取;对于百度来说,百度很可能是已经不再把这些页面抓进主索引库,而是放进了“百度沙盒”里进行考察,考察多久,就看你如何改进,也许,你看不到百度把这些被K的网站释放出来的时候,人是没有规律的。
本文来自:中国免费资源情报站(www.jn001.net),原文地址:http://www.jn001.net/MianFeiJianZhanSuCai/2008-11/3929.html