首先,我们需要做的就是通过FTP连接我们的虚拟空间,在虚拟空间里面找到一个logfiles的文件,里面存放的就是在虚拟主机上下载的iis日志,在有的空间里面有两个logfiles文件,一个是在根目录下,一个是在虚拟空间连接后直接就可以看到,一般情况下网站的iis日志都是在根目录下的logfiles里面。
那如何去分析IIS日志:
例:123.125.71.113 – – [28/Sep/2010:07:15:11 -0700] “GET /wangzhan-youhua/maowenben.html HTTP/1.1″ 200 12864 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
分析:
客户端IP======123.125.71.113
日期=========28/Sep/2010
时间=========07:15:11
动作=========GET
URI资源==== ==/wangzhan-youhua/maowenben.html(代表访问的资源是当前这个页面)
协议版本 ======HTTP/1.1
协议状态====== 200 (200表示抓取成功)
发送的字节数===12864(表示当前页面的大小)
”Baiduspider+(+http://www.baidu.com/search/spider.htm)”表示百度蜘蛛来抓取
一些常见的IIS状态代码为:
200 – 服务器成功返回网页
404 – 请求的网页不存在
503 – 服务器暂时不可用
IIS状态码含义:
2xx 抓取成功
200 正常;请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。
3xx 重定向
301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。
4xx 客户机中出现的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理
对Seoer来说,IIS访问日志是必须了解的SEO基础,不仅需要了解IIS日志状态码含义,而且还需要了解各大搜索引擎爬虫(蜘蛛Robot)名称。通过IIS日志我们可以了解到蜘蛛爬取情况及网站流量访问情况,所以,如果你是一个成功的seo人员,那你必须对于对于iis日志状态代码学会分析,知道蜘蛛什么时候来爬行,摸索蜘蛛的习惯。
上面的介绍不止局限百度的搜索引擎,可以看看“Baiduspider+(+http://www.baidu.com/search/spider.htm)” 就可以知道是那个搜索引擎了,
下面是各个搜索引擎的姓名:
一:百度蛛蛛
baidu的蛛蛛的姓名:baiduspider
二:Google的机器人,爬行动物
Google的蛛蛛的姓名:Googlebot
三:腾讯Soso的蛛蛛的姓名:Sosospider
四:Yahoo的蛛蛛的姓名:Yahoo Slurp
五:搜狗的蛛蛛名字:sogou spider (Sogou+web+spider 网页蛛蛛)
六:有道的蛛蛛名字:YodaoBot
七:Live综合引得蛛蛛:MSNBot
请看你的网站日志 ,每天有哪些搜索引擎蛛蛛来过你的网站爬行和抓取页面。
本文由 野狼建都 发布,版权归作者所有,转载请注明出处!