SEO

網站導覽 / RSS / 加入最愛 /




了解robots.txt

Share |

萬維網機器人(也稱為流浪者或蜘蛛)的程序,穿越許多頁面,在萬維網的遞歸檢索鏈接的網頁。

1993 年和1994 年也有一些情況​​​​下,機器人訪問了WWW 服務器,他們不歡迎各種原因。有時這些機器人的具體原因,例如某些機器人淹沒服務器與速射要求,或相同的文件檢索反复。在其他情況下機器人走過部分WWW 服務器的不適合,例如很深的虛擬樹木,重複信息,臨時信息,或CGI - 腳本的副作用(如投票)。

這些事件表明需要建立的機制為WWW 服務器,以表明對機器人的哪些部分的服務器不應該訪問。本標準滿足這一需求的業務解決方案。

該方法

該方法用於排除機器人從服務器是創建一個服務器上的文件,指定訪問策略的機器人。該文件必須可通過HTTP 本地網址“/ robots.txt “ 內容此文件的指定下面。

之所以選擇這種方法,因為它可以很容易地實施現有的任何WWW 服務器,和機器人可以找到通往政策,只有一個文件檢索。

一種可能的缺點,這個單文件的做法是,只有服務器管理員可以保持這樣一份名單,而不是個別的文件服務器上的維護者。這可以解決當地的進程來構造一個文件從一數別人的,但如果,或如何,這樣做是對的範圍之外本文件。

選擇的網址是出於幾個標準:

文件名應該適應文件命名限制所有常用的操作系統。

文件擴展名應該不需要額外的服務器配置。

文件名應表明該文件的目的,並很容易記住。

這種可能性的衝突與現有的文件應該很小。

格式

的格式和語義的 “/ robots.txt  “  文件如下:

該文件包含一個或多個記錄分隔由一個或多個空行(終止由CR ,鉻倪,或NL )的。每個記錄包含行的形式“ “ 字段名稱不區分大小寫。

評論可以包含在文件中使用UNIX Bourne shell 的公約:字符是用來表明前面的空間(如果有的話),其餘行到線路終端將被丟棄。行只包含評論是完全排除,因此並不表明紀錄邊界。

記錄開始與一個或多個 用戶代理 行,後面跟著一個或多個 不允許 線,詳情如下。未確認的頭被忽略。

用戶代理

在這方面值的名稱是機器人的記錄,說明訪問的政策。

如果有多個用戶代理領域存在的記錄描述了相同的訪問政策,一個多機器人。至少有一個外地需求在場每紀錄。

該機器人要開放,在解釋這一領域。不區分大小寫子串匹配的名字沒有版本信息,建議。

如果該值是'*' ,記錄描述了默認的訪問策略的任何機器人具有不匹配任何其他記錄。這是不允許有多個這樣的記錄在“/ robots.txt “ 文件。

不允許

在這方面的價值的部分指定網址不被訪問。這可以是一個完整路徑,或部分道路,任何網址開頭此值將無法取回。例如, 不允許:幫助 既不允許 / help.html /幫助/ index.html ,而不允許:幫助將不允許 /幫助/ index.html 但允許 / help.html

任何空值,顯示所有的URL 可以檢索。至少有一個不允許字段必須存在於記錄。

存在的一個空的“/ robots.txt “ 文件沒有明確的關聯語義,這將被視為如果它不存在,也就是說,所有的機器人會考慮自己的歡迎。

下面的例子 “/ robots.txt  “  文件規定,任何機器人應該訪問的任何網址的開始 ”/  網絡世界 / 地圖 /“  ”/ tmp  目錄 /“  ,或  / foo.html

# robots.txt for http://www.example.com/ 

User-agent: *

Disallow: /cyberworld/map/ # This is an infinite virtual URL space

Disallow: /tmp/ # these will soon disappear

Disallow: /foo.html 

這個例子“/ robots.txt “ 文件規定,任何機器人應該訪問的任何網址的開始”/ 網絡世界地圖/“ 除了機器人名為”cybermapper“ 

# robots.txt for http://www.example.com/

User-agent: *

Disallow: /cyberworld/map/ # This is an infinite virtual URL space

# Cyber​​​​mapper knows where to go.

User-agent: cybermapper

Disallow: 

這個例子表明沒有機器人訪問本網站應進一步:

# go away

User-agent: *

Disallow: /