IIS日志的用途就是能夠觀察搜索引擎的蜘蛛來我們網站的爬取情況,可以更近距離的分析和接觸蜘蛛。爬取次數,爬取時間點,爬取高峰期,爬取反應出來的HTTP狀態碼,為我們帶來清晰的分析便利。
一、各大搜索引擎的蜘蛛名稱:
百度(Baidu)爬蟲名稱(Baiduspider)
谷歌(Google)爬蟲名稱(Googlebot)
雅虎(Yahoo)爬蟲名稱(Yahoo Slurp)
有道(Yodao)蜘蛛名稱(YodaoBot)
搜狗(sogou)蜘蛛名稱(sogou spider)
MSN的蜘蛛名稱:msnbot

二、IIS分析:
案例日志:61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider(+http://www.baidu.com/search/spider.htm)"
分析:
1、61.135.168.22 是訪問了是服務器IP為這個的網站.
2、11/Jan/2009:04:02:45 表示蜘蛛爬行時間
3、GET /thread-7303-1-1.html HTTP,表示蜘蛛抓取了這個頁面。
4、200 狀態碼表示蜘蛛抓取頁面成功;404表示蜘蛛抓取頁面失敗。
5、8450 表示此次抓取了8450個字節
6、Baiduspider(+http://www.baidu.com/search/spider.htm)表示百度蜘蛛的名稱

三、基本狀態碼:
200:請求已經完成,蜘蛛訪問頁面正常
301:已經移動,永久重定向
302:臨時重定向
304:蜘蛛爬取后發現,頁面沒有修改
305:使用代理
400:請求錯誤
404:找不到頁面

四、IIS詳細狀態碼含義:
      100 - 表示已收到請求的一部分,正在繼續發送余下部分。
101 - 切換協議。
200 - 確定。客戶端請求已成功。
2XX - 成功 服務器成功地接受了客戶端請求。 (只要是2XX的狀態,都表示成功)
200 - 確定。客戶端請求已成功。
201 - 已創建。
202 - 已接受。
203 - 非權威性信息。
204 - 無內容。
205 - 重置內容。
206 - 部分內容。
300 - 針對收到請求,服務器可執行多種操作。
301 - 永久移動轉移,請求的內容已永久移動其他新位置。
302 - 臨時移動轉移,請求的內容已臨時移動新的位置
304 - 未修改。自從上次請求后,請求的內容未修改過。
307 - 臨時重定向。服務器目前從不同位置響應請求,但請求者應繼續使用原有位置來進行以后的請求。
400 - 錯誤的請求。
401 - 訪問被拒絕。IIS 定義了許多不同的 401 錯誤,它們指明更為具體的錯誤原因。這些具體的錯誤代碼在瀏覽器中顯示,但不在 IIS 日志中顯示:
401.1 - 登錄失敗。
401.2 - 服務器配置導致登錄失敗。
401.3 - 由于 ACL 對資源的限制而未獲得授權。
401.4 - 篩選器授權失敗。
401.5 - ISAPI/CGI 應用程序授權失敗。
401.7 - 訪問被 Web 服務器上的 URL 授權策略拒絕。這個錯誤代碼為 IIS 6.0 所專用。
403 - 禁止訪問:IIS 定義了許多不同的 403 錯誤,它們指明更為具體的錯誤原因:
403.1 - 執行訪問被禁止。
403.2 - 讀訪問被禁止。
403.3 - 寫訪問被禁止。
403.4 - 要求 SSL.
403.5 - 要求 SSL 128.
403.6 - IP 地址被拒絕。
403.7 - 要求客戶端證書。
403.8 - 站點訪問被拒絕。
403.9 - 用戶數過多。
403.10 - 配置無效。
403.11 - 密碼更改。
403.12 - 拒絕訪問映射表。
403.13 - 客戶端證書被吊銷。
403.14 - 拒絕目錄列表。
403.15 - 超出客戶端訪問許可。
403.16 - 客戶端證書不受信任或無效。
403.17 - 客戶端證書已過期或尚未生效。
403.18 - 在當前的應用程序池中不能執行所請求的 URL.這個錯誤代碼為 IIS 6.0 所專用。
403.19 - 不能為這個應用程序池中的客戶端執行 CGI.這個錯誤代碼為 IIS 6.0 所專用。
403.20 - Passport 登錄失敗。這個錯誤代碼為 IIS 6.0 所專用。
404 - 未找到請求的內容。
404.0 - 未找到文件或目錄。
404.1 - 無法在所請求的端口上訪問 Web站點。
404.2 - Web 服務擴展鎖定策略阻止本請求。
404.3 - MIME 映射策略阻止本請求。
405 - 用來訪問本頁面的 HTTP 謂詞不被允許(方法不被允許)
406 - 客戶端瀏覽器不接受所請求頁面的 MIME 類型。
407 - 要求進行代理身份驗證。
412 - 前提條件失敗。
413 - 請求實體太大。
414 - 請求 URI 太長。
415 - 不支持的媒體類型。
416 - 所請求的范圍無法滿足。
417 - 執行失敗。
423 - 鎖定的錯誤。
500 - 服務器內部錯誤。
500.12 - 應用程序正忙于在 Web 服務器上重新啟動。
500.13 - Web 服務器太忙。
500.15 - 不允許直接請求 Global.asa.
500.16 - UNC 授權憑據不正確。這個錯誤代碼為 IIS 6.0 所專用。
500.18 - URL 授權存儲不能打開。這個錯誤代碼為 IIS 6.0 所專用。
500.100 - 內部 ASP 錯誤。
501 - 服務器無法完成請求的功能。
502 - 服務器用作網關或代理服務器時收到了無效響應。
502.1 - CGI 應用程序超時。
502.2 - CGI 應用程序出錯。
503 - 服務不可用。這個錯誤代碼為 IIS 6.0 所專用。
504 - 網關超時。
505 - HTTP 版本不受支持。我們繼續學習下,如何看IIS日志代碼,打開IIS日志后,你會看見里面有很多訪問記錄。baiduspider,Googlebot等就是蜘蛛了。蜘蛛爬過后都會留下記錄的,我將狀態代碼列在下面:
100 - 表示已收到請求的一部分,正在繼續發送余下部分。
101 - 切換協議。
200 - 確定。客戶端請求已成功。
2XX - 成功 服務器成功地接受了客戶端請求。 (只要是2XX的狀態,都表示成功)
200 - 確定。客戶端請求已成功。
201 - 已創建。
202 - 已接受。
203 - 非權威性信息。
204 - 無內容。
205 - 重置內容。
206 - 部分內容。
300 - 針對收到請求,服務器可執行多種操作。
301 - 永久移動轉移,請求的內容已永久移動其他新位置。
302 - 臨時移動轉移,請求的內容已臨時移動新的位置
304 - 未修改。自從上次請求后,請求的內容未修改過。
307 - 臨時重定向。服務器目前從不同位置響應請求,但請求者應繼續使用原有位置來進行以后的請求。
400 - 錯誤的請求。
401 - 訪問被拒絕。IIS 定義了許多不同的 401 錯誤,它們指明更為具體的錯誤原因。這些具體的錯誤代碼在瀏覽器中顯示,但不在 IIS 日志中顯示:
401.1 - 登錄失敗。
401.2 - 服務器配置導致登錄失敗。
401.3 - 由于 ACL 對資源的限制而未獲得授權。
401.4 - 篩選器授權失敗。
401.5 - ISAPI/CGI 應用程序授權失敗。
401.7 - 訪問被 Web 服務器上的 URL 授權策略拒絕。這個錯誤代碼為 IIS 6.0 所專用。
403 - 禁止訪問:IIS 定義了許多不同的 403 錯誤,它們指明更為具體的錯誤原因:
403.1 - 執行訪問被禁止。
403.2 - 讀訪問被禁止。
403.3 - 寫訪問被禁止。
403.4 - 要求 SSL.
403.5 - 要求 SSL 128.
403.6 - IP 地址被拒絕。
403.7 - 要求客戶端證書。
403.8 - 站點訪問被拒絕。
403.9 - 用戶數過多。
403.10 - 配置無效。
403.11 - 密碼更改。
403.12 - 拒絕訪問映射表。
403.13 - 客戶端證書被吊銷。
403.14 - 拒絕目錄列表。
403.15 - 超出客戶端訪問許可。
403.16 - 客戶端證書不受信任或無效。
403.17 - 客戶端證書已過期或尚未生效。
403.18 - 在當前的應用程序池中不能執行所請求的 URL.這個錯誤代碼為 IIS 6.0 所專用。
403.19 - 不能為這個應用程序池中的客戶端執行 CGI.這個錯誤代碼為 IIS 6.0 所專用。
403.20 - Passport 登錄失敗。這個錯誤代碼為 IIS 6.0 所專用。
404 - 未找到請求的內容。
404.0 - 未找到文件或目錄。
404.1 - 無法在所請求的端口上訪問 Web站點。
404.2 - Web 服務擴展鎖定策略阻止本請求。
404.3 - MIME 映射策略阻止本請求。
405 - 用來訪問本頁面的 HTTP 謂詞不被允許(方法不被允許)
406 - 客戶端瀏覽器不接受所請求頁面的 MIME 類型。
407 - 要求進行代理身份驗證。
412 - 前提條件失敗。
413 - 請求實體太大。
414 - 請求 URI 太長。
415 - 不支持的媒體類型。
416 - 所請求的范圍無法滿足。
417 - 執行失敗。
423 - 鎖定的錯誤。
500 - 服務器內部錯誤。
500.12 - 應用程序正忙于在 Web 服務器上重新啟動。
500.13 - Web 服務器太忙。
500.15 - 不允許直接請求 Global.asa.
500.16 - UNC 授權憑據不正確。這個錯誤代碼為 IIS 6.0 所專用。
500.18 - URL 授權存儲不能打開。這個錯誤代碼為 IIS 6.0 所專用。
500.100 - 內部 ASP 錯誤。
501 - 服務器無法完成請求的功能。
502 - 服務器用作網關或代理服務器時收到了無效響應。
502.1 - CGI 應用程序超時。
502.2 - CGI 應用程序出錯。
503 - 服務不可用。這個錯誤代碼為 IIS 6.0 所專用。
504 - 網關超時。
505 - HTTP 版本不受支持。