1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

IIS日志的作用与如何分析IIS日志

本帖由 爱装家2012-11-16 发布。版面名称:主机讨论

  1. 爱装家

    爱装家 New Member

    注册:
    2012-07-28
    帖子:
    156
    赞:
    0
    一IIS日志的作用



    1.那么通过IIS日志我们能知道什么

    <!--[if !supportLists]-->1、 <!--[endif]-->我们发的外链是否起到效果?

    <!--[if !supportLists]-->2、 <!--[endif]-->我们买的空间是否能够稳定?

    <!--[if !supportLists]-->3、 <!--[endif]-->蜘蛛对我们的那些页面比较喜欢而对哪些不喜欢?

    <!--[if !supportLists]-->4、 <!--[endif]-->蜘蛛什么时候抓取我们的网站频繁,我们需要什么时候更新内容?

    2.IIS日志的重要作用
    通过IIS日志可以了解蜘蛛对网站的基本爬取情况,可以知道蜘蛛的爬取轨迹和爬取量,通过我们的IIS日志,外链的多和少和网站蜘蛛的爬取量是有直接影响的,我们所说的链接诱饵就是如果你做了一个外链,蜘蛛在爬取这个外链页面并把页面放出来时,蜘蛛可以通过你留的这个链接来爬取你的网站,而IIS日志正是会记录下蜘蛛的这次爬取行动。
    网站的更新频率也和IIS日志中蜘蛛抓取的频率有关,一般来说更新频率越高,蜘蛛的抓取频率越高,而我们网站的更新不仅仅只是新内容的添加同时还有我们的微调操作。
    我们可以根据IIS日志的反应情况,对我们的空间的某些事情和问题提前进行预警,因为服务器如果出问题的话在IIS日志中会第一时间反映出来,要知道服务器的稳定速度和打开速度两者都会直接影响我们的网站。通过IIS日志我们可以知道网站的那些页面是很受蜘蛛欢迎的,而哪些页面是蜘蛛连碰都不去碰的,同时我们还能发现有一些蜘蛛由于是过度爬取对我们的服务器资源损耗是很大的,我们要进行屏蔽工作。



    二、如何下载日志及日志设置注意事项
      

    1.首先我们的空间要支持IIS日志下载,这一点是很重要的,在我们购买空间之前必须要先问好支不支持IIS日志下载,因为有的服务商是不提供这项服务的,如果支持的话空间后台一般都有日志WebLog日志下载这个功能把它下载到根目录在用FTP传到本地就可以,服务器的话可以设置将日志文件下载到指定路径。
    2.这里有个很重要的问题,IIS日志强烈建议设置成每小时生成一次,小型的企业站和页面内容较少的网站可以设置成一天,它默认是一天,如果内容多或者大型站设置成一天生成一次,那么一天只生成一个文件,这个文件会相当的大,我们有时电脑打开是会造成死机,设置的话找空间商协调设置即可。


    三、IIS日志的分析。
      1.日志的后缀名是log的我们用记事本打开,选择格式里的自动换行这样看起来方便,同时用搜索功能搜索BaiduSpider和Googlebot这两个蜘蛛。
      例如:
      百度蜘蛛
      2012-03-13 00:47:10 W3SVC177 116.255.169.37 GET / – 80 – 220.181.51.144 Baiduspider-favo+(+ baidu /search/spider ) 200 0 0 15256 197 265
      谷歌机器人
      2012-03-13 08:18:48 W3SVC177 116.255.169.37 GET /robots.txt – 80 – 222.186.24.26 Googlebot/2.1+(+ google /bot ) 200 0 0 985 200 31
      我们分段来解释
      2012-03-13 00:47:10 蜘蛛爬取的日期和时间点
      W3SVC177 这个是机器码这个是惟一的 我们不去管它
      116.255.169.37 这个IP地址是服务器的IP地址
      GET 代表事件
      GET后面就是蜘蛛爬取的网站页面,斜杠就代表首页
      80 是端口的意思
      220.181.51.144 这个IP则是蜘蛛的IP,这里告诉大家一个鉴别真假百度蜘蛛的方法,我们电脑点击开始运行输入cmd打开命令提示符,输入nslookup空格加蜘蛛IP点击回车,一般真百度蜘蛛都有自己的服务器IP而假蜘蛛则没有。如果网站中出现了大量的假蜘蛛则说明有人冒充百度蜘蛛来采集你的内容,你就需要注意了,如果太猖獗那会很占用你的服务器资源,我们需要屏蔽他们的IP.
      200 0 0这里是状态码 状态码的意思可以在百度里搜索下
      197 265最后两个数字则代表着访问和下载的数据字节数。
    2.我们要看蜘蛛经常爬取哪些页面,我们要记录下来,分析他们为什么会经常被蜘蛛爬取,从而分析出蜘蛛所喜欢内容。
    3.有时候我们的路径不统一出现带斜杠和不带斜杠的问题,蜘蛛会自动识别为301跳转到带斜杠的页面,这里我们就发现了搜索引擎是可以判断我们的目录的,所以我们要对我们的目录进行统一。
    4.我们分析日志分析时间长了,我们能够看出蜘蛛的抓取规律,同一目录下面的单个文件的抓取频率间隔和不同目录的抓取频率间隔都可以看出来,这些抓取频率间隔时间是蜘蛛根据网站权重和网站更新频率来自动确定的。
    5.蜘蛛对于我们的页面的抓取是分等级的,是根据权重依次递减的,一般顺序为首页、目录页、内页。
    6.不同IP的蜘蛛他们的抓取频率也是不相同的

    2xx (成功)表示成功处理了请求的状态代码。

    200 (成功) 服务器已成功处理了请求。 通常,这表示服务器提供了请求的网页。

    201 (已创建) 请求成功并且服务器创建了新的资源。

    202 (已接受) 服务器已接受请求,但尚未处理。

      203 (非授权信息) 服务器已成功处理了请求,但返回的信息可能来自另一来源。

      204 (无内容) 服务器成功处理了请求,但没有返回任何内容。

      205 (重置内容) 服务器成功处理了请求,但没有返回任何内容。

      206 (部分内容) 服务器成功处理了部分 GET 请求。

    3xx (重定向) 表示要完成请求,需要进一步操作。 通常,这些状态代码用来重定向。

        300 (多种选择) 针对请求,服务器可执行多种操作。 服务器可根据请求者 (user agent) 选择一项操作,或提供操作列表供请求者选择。

      301 (永久移动) 请求的网页已永久移动到新位置。 服务器返回此响应(对 GET 或 HEAD 请求的响应)时,会自动将请求者转到新位置。

      302 (临时移动) 服务器目前从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。

      303 (查看其他位置) 请求者应当对不同的位置使用单独的 GET 请求来检索响应时,服务器返回此代码。

      304 (未修改) 自从上次请求后,请求的网页未修改过。 服务器返回此响应时,不会返回网页内容。

      305 (使用代理) 请求者只能使用代理访问请求的网页。 如果服务器返回此响应,还表示请求者应使用代理。

      307 (临时重定向) 服务器目前从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。

    4xx(请求错误) 这些状态代码表示请求可能出错,妨碍了服务器的处理。

      400 (错误请求) 服务器不理解请求的语法。

      401 (未授权) 请求要求身份验证。 对于需要登录的网页,服务器可能返回此响应。

      403 (禁止) 服务器拒绝请求。404 (未找到) 服务器找不到请求的网页。

      405 (方法禁用) 禁用请求中指定的方法。

      406 (不接受) 无法使用请求的内容特性响应请求的网页。

      407 (需要代理授权) 此状态代码与 401(未授权)类似,但指定请求者应当授权使用代理。408 (请求超时) 服务器等候请求时发生超时。

      409 (冲突) 服务器在完成请求时发生冲突。 服务器必须在响应中包含有关冲突的信息。

      410 (已删除) 如果请求的资源已永久删除,服务器就会返回此响应。

      411 (需要有效长度) 服务器不接受不含有效内容长度标头字段的请求。

      412 (未满足前提条件) 服务器未满足请求者在请求中设置的其中一个前提条件。

      413 (请求实体过大) 服务器无法处理请求,因为请求实体过大,超出服务器的处理能力。

      414 (请求的 URI 过长) 请求的 URI(通常为网址)过长,服务器无法处理。

      415 (不支持的媒体类型) 请求的格式不受请求页面的支持。

      416 (请求范围不符合要求) 如果页面无法提供请求的范围,则服务器会返回此状态代码。

      417 (未满足期望值) 服务器未满足"期望"请求标头字段的要求。

    5xx(服务器错误)这些状态代码表示服务器在尝试处理请求时发生内部错误。 这些错误可能是服务器本身的错误,而不是请求出错。

      500 (服务器内部错误) 服务器遇到错误,无法完成请求。

      501 (尚未实施) 服务器不具备完成请求的功能。 例如,服务器无法识别请求方法时可能会返回此代码。

      502 (错误网关) 服务器作为网关或代理,从上游服务器收到无效响应。

      503 (服务不可用) 服务器目前无法使用(由于超载或停机维护)。 通常,这只是暂时状态。

      504 (网关超时) 服务器作为网关或代理,但是没有及时从上游服务器收到请求。

    505 (HTTP 版本不受支持) 服务器不支持请求中所用的 HTTP 协议版本。


    本文来自于【爱装家装饰网
     
  2. 曾经的歌

    曾经的歌 New Member

    注册:
    2012-09-25
    帖子:
    235
    赞:
    0
    看蜘蛛经常爬取哪些页面,我们要记录下来