了解robots.txt

萬維網機器人(也稱為流浪者或蜘蛛)的程序,穿越許多頁面,在萬維網的遞歸檢索鏈接的網頁。

1993年和1994年也有一些情況下,機器人訪問了WWW服務器,他們不歡迎各種原因。有時這些機器人的具體原因,例如某些機器人淹沒服務器與速射要求,或相同的文件檢索反复。在其他情況下機器人走過部分WWW服務器的不適合,例如很深的虛擬樹木,重複信息,臨時信息,或CGI -腳本的副作用(如投票)。

這些事件表明需要建立的機制為WWW服務器,以表明對機器人的哪些部分的服務器不應該訪問。本標準滿足這一需求的業務解決方案。

該方法

該方法用於排除機器人從服務器是創建一個服務器上的文件,指定訪問策略的機器人。該文件必須可通過HTTP本地網址“/ robots.txt。內容此文件的指定下面

之所以選擇這種方法,因為它可以很容易地實施現有的任何WWW服務器,和機器人可以找到通往政策,只有一個文件檢索。

一種可能的缺點,這個單文件的做法是,只有服務器管理員可以保持這樣一份名單,而不是個別的文件服務器上的維護者。這可以解決當地的進程來構造一個文件從一數別人的,但如果,或如何,這樣做是對的範圍之外本文件。

選擇的網址是出於幾個標準:

文件名應該適應文件命名限制所有常用的操作系統。

文件擴展名應該不需要額外的服務器配置。

文件名應表明該文件的目的,並很容易記住。

這種可能性的衝突與現有的文件應該很小。

格式

的格式和語義的“/ robots.txt文件如下:

該文件包含一個或多個記錄分隔由一個或多個空行(終止由CR,鉻/倪,或NL)的。每個記錄包含行的形式 <。字段名稱不區分大小寫。

評論可以包含在文件中使用UNIX Bourne shell的公約:''字符是用來表明前面的空間(如果有的話),其餘行到線路終端將被丟棄。行只包含評論是完全排除,因此並不表明紀錄邊界。

記錄開始與一個或多個 用戶代理 行,後面跟著一個或多個 不允許 線,詳情如下。未確認的頭被忽略。

用戶代理

在這方面值的名稱是機器人的記錄,說明訪問的政策。

如果有多個用戶代理領域存在的記錄描述了相同的訪問政策,一個多機器人。至少有一個外地需求在場每紀錄。

該機器人要開放,在解釋這一領域。不區分大小寫子串匹配的名字沒有版本信息,建議。

如果該值是'*',記錄描述了默認的訪問策略的任何機器人具有不匹配任何其他記錄。這是不允許有多個這樣的記錄在“/ robots.txt文件。

不允許

在這方面的價值的部分指定網址不被訪問。這可以是一個完整路徑,或部分道路,任何網址開頭此值將無法取回。例如, 不允許:/幫助 既不允許 / help.html /幫助/ index.html,而 不允許:/幫助/ 將不允許 /幫助/ index.html 但允許 / help.html

任何空值,顯示所有的URL可以檢索。至少有一個不允許字段必須存在於記錄。

存在的一個空的“/ robots.txt文件沒有明確的關聯語義,這將被視為如果它不存在,也就是說,所有的機器人會考慮自己的歡迎。

下面的例子“/ robots.txt文件規定,任何機器人應該訪問的任何網址的開始”/網絡世界/地圖/“”/ tmp目錄/“,或 / foo.html

# robots.txt for http://www.example.com/ 

User-agent: *

Disallow: /cyberworld/map/ # This is an infinite virtual URL space

Disallow: /tmp/ # these will soon disappear

Disallow: /foo.html 

這個例子“/ robots.txt文件規定,任何機器人應該訪問的任何網址的開始”/網絡世界/地圖/“除了機器人名為”cybermapper“

# robots.txt for http://www.example.com/

User-agent: *

Disallow: /cyberworld/map/ # This is an infinite virtual URL space

# Cybermapper knows where to go.

User-agent: cybermapper

Disallow: 

這個例子表明沒有機器人訪問本網站應進一步:

# go away

User-agent: *

Disallow: /

 





搜尋引擎之演算法

每個SEO者都想瞭解這個問題,所以搜尋引擎發展至今一直不斷改變,它們演算法時的一些考慮,因此Google 專利清單也許讀者可猜出他們會走哪條路線:

網站的年齡

1.自該網域註冊後過多久

2.內容的年齡

3.新內容增加的規律性

4.連結的年齡,連接其他網站的名譽和其關連性

一般站內因素

1.引證和研究來源(表明內容是研究性質):在搜尋引擎資料庫裡列舉的詞根與其相關的術語

2.負面站內因素:例如太多關鍵字標籤(meta tag),如果不斷地顯然被優化過,反而會對網站造成傷害

3.內容的獨特性:使用於內容的相關術語(搜尋引擎關聯到的術語的方式視同如何關聯到網頁的主要內容)、Google網頁級別(只被使用在Google 的演算法)、外在連結、外部連結的鏈結文字、在那些和在站點/網頁包含的那些連結

4.刪除導入鏈結的速率

5.檔案增加或更新的頻率

6.導入的逆向鏈結,以及該鏈結的文字:一些導入鏈結的負面計分(或許那些來自低價值頁、被交換的逆向鏈結等),逆向鏈結取得速率:太多太快意味著「不自然」的鏈結交易行為模式

6.在網站中該文件的結構深度:從其他資源收集的網格表,譬如監視當搜尋結果導引用戶到某頁後,用戶有多頻繁按瀏覽器的返回鈕

7.從第三方資料分享協議收集的網格資料(譬如監測站點流量的統計程式提供商)

8.和主文件語意上的連結

9.使用子網域中使用關鍵字和內容質量等等,以及從這些活動來的負面計分

10.主機服務商 IP 和該 IP 旗下其他站點的數量/質量:技術細節像利用301重定向被移除的網頁、對不存在網頁顯示404伺服器標頭而非200伺服器標頭、適當的利用robots.txt

11.主機服務商正常運行時間

12.HTML代碼品質及錯誤出現數

13.是否站點對不同類的用戶顯示不同的內容

14.未及時矯正、無效的導出的鏈結

15.不安全或非法內容





搜尋引擎的演變

早期搜尋引擎

網站管理員以及網路內容提供者在90年代中期開始使用搜尋引擎來優化網站。此時第一代搜尋引擎開始對網際網路分門別類。其實一開始所有網站員要做的事只有提交所屬網站到各家搜尋引擎。這些引擎跑一些蜘蛛機器人(spider──擷取於網頁程式中找到連至其他網頁的連結並且儲存所找到的資料。過程中同時包含了將網頁下載並儲存至搜尋引擎擁有者的伺服器中,這時有另外一個軟體稱為Indexer來擷取頁面中不同的資訊——頁面中的文字、文字的位置、文字的重要性以及頁面所包含的任何連結,之後將頁面置入清單中等待過些時日後,再來擷取一次。隨著資訊科技時代來臨文件數目日積月累,越來越多網站員意識到基本搜尋(organic search,亦翻為隨機搜尋)條目的重要性,所以較普及的搜尋引擎公司開始整理他們的列表,以顯示根據最洽當適合的網頁為優先。搜尋引擎與網站員的戰爭就此開始,並延續至今。

一開始搜尋引擎是被網站管理員本身牽著走的。早期版本的搜尋演算法有賴於網站員提供資訊,如關鍵字的基本定義標籤(meta tag)。當某些網站員開始濫用標籤,造成該網頁排名與連結無關時,搜尋引擎開始捨棄標籤並發展更複雜的排名演算法。

當代搜尋引擎

Google由兩名在史丹福大學的博士生佩吉(Larry Page)和布林(Sergey Brin)開始。他們帶來了一個給網頁評估的新概念。這個概念稱網頁級別(PageRank),是從Google演算法重要的開端。網頁級別十分倚賴導入連結(incoming link ,並利用這種每個導入某網頁的連結相當於給該網頁價值投一票的理論建立起邏輯系統。越多導入連結意味著該網頁越有「價值」。而每個導入連結本身價值直接根據該連結從何而來的網頁級別,以及相反的該頁導出連結(outgoing link)。

在網頁級別幫助下,Google在服務相關的結果上證明它相當優異。Google成為了最普遍和最成功的搜尋引擎。由於網頁級別度量了站點外因數,Google感到它會比頁內因數難以動手腳。

然而道高一尺魔高一丈。網站員們已經開發出對付Inktomi搜尋引擎的連結操作工具和計劃。這些方法證明對Google 演算法一樣管用。許多站集中於交換、買賣大量連結。隨著網站員尋求獲取連結只單單要影響Google送更多流量給該站,而不管是否對站點訪客有用否這種行為增加,網頁級別對原始演算法的信賴度漸漸被破壞了。

此時,是Google和其他查尋引擎對廣大範圍的站外因數仔細檢視的時候。開發更加聰明的演算法有其他原因。網際網路已經膨脹到擁有非技術的廣大族群。他們經常無法使用先進的提問技術來取得資訊;而且他們得面對比起發展早期更龐大資料、更複雜的索引。搜尋引擎必須開發具備預測性、語義性、語言性和啟發性演算法。
目前,網頁級別的縮小版仍然被顯示在Google工具條上,不過網頁級別只不過是Google考慮在網頁分級時超過100個因素裡中的一個。目前大多數搜尋引擎對它們的如何評等的演算法都一直保持高度秘密。搜尋引擎也許使用上百因素在排列目錄;每個因素本身和因素所佔比重都會不斷的在改變。大部分當代搜尋引擎優化的思路──哪些有效、哪些沒效──這些很大部分在於觀察、網路資訊交流、或是SEO公司彼此交換得來的經驗。





Google的搜尋引擎排名是依據何種條件與規則?

這是高度商業機密,除非是您找到Google的搜尋引擎設計者,否則是沒有完全的標準答案,Google的搜尋引擎是目前全世界使用人口中最多與最大的搜尋引擎,國內的搜尋引擎也是不斷的仿效與學習它,其主要因素是它具有公信力、搜尋引擎機制嚴謹、資料精準與正確性,較不具有商業化行為。因此對於一個規模與專業的大企業與網站排名公司都是以其搜尋引擎作為排名目標,我們可以明確的告訴您,Google的搜尋引擎對於SEO的要求是非常注重的,同時對友善網站外部連結、作弊程式等都是影響排名的主要因素。





搜尋引擎資料庫大約多久會更新?

各搜尋引擎資料庫與更新時間均有所不同,同時搜尋引擎亦會依照網站內SEOmeta設定也會有不同的結果,一般來說資料更新是以搜尋引擎的蜘蛛拜訪時間為主,這也取決於您的網站是否常維持更新,目前在Yahoo自然搜尋前三頁比較熱門的關鍵字中,我們也發現其實是採取有些人為因素來每天造訪網站,這種做法各有優缺點。大部分搜尋引擎更新時間約七至十四天左右,以Google比較具有規模與公信力,更新時間約七天左右,但是如果您的網站一直維持原狀,這會讓搜尋引擎造訪後立即離開,網站排名其實是具有相當負面影響的。因此,網站的經營是必須要經常做更新,瀏覽者也可以每次點閱時有不同的感覺。





搜尋引擎概念

搜尋引擎大概可分為兩種類型,一種是分類搜尋,另外為索引搜尋搜尋引擎最初都是以分類搜尋為主要搜尋方式,所謂的分類搜尋就是將搜尋資料細分類別,並由各個網站的網站管理員自行向搜尋引擎申請登錄網站所在類別,這種分類搜尋方式,搜尋的資料正確性頗高,因為是屬於人工建置搜尋資料模式,但缺點也是因為由人工建置的緣故,導致搜尋資料量增加緩慢與搜尋資料更新不易,且搜尋的方式比較不便利,譬如想要搜尋哪個網佔有賣手機,您必須要先自行判別手機的網站會被分類到哪個搜尋類別!! 

索引搜尋應該可以說是屬於分類搜尋的進階技術,索引搜尋的基本運作原理是搜尋引擎透過搜尋程式或稱蜘蛛程式(Spiders),藉由每個網站與網站之間的連結,蜘蛛程式搜集完A網站資料後,在透過A網站的連結點〝爬〞到其他的網站蒐集資料,就這樣一個網站接著一個網站搜集資訊,再依照特定的索引編碼排序規則分類完成,而構成一個大幅的網站索引搜尋資訊結構。  

全世界搜尋引擎約有上百家之多,每個搜尋引擎皆有各自的搜尋特色,在眾多搜尋引擎之中又以GoogleYahooMSN三大搜尋引擎為網友較常使用的搜尋網站,這三家搜尋引擎也可以說是目前搜尋引擎界的龍頭。

Google搜尋引擎的獨特之處,是搜尋引擎會透過蜘蛛程式(Spiders)來預先建立每個網站的網頁級別(Page Rank簡稱PR),再以Page Rank與其他搜尋條件分數合併運算,顯示其搜尋結果,Google搜尋引擎希望透過這樣的搜尋機制提供搜尋用戶更準確的搜尋結果。

隨著網路部落格(Web Blog)的迅速發展,Google搜尋引擎也開始面臨到網頁重要程度(PR)的統計正確性考驗,因為Blog吸引人的地方就是可以分享許多其他的網站資源,也就是網站可以增加連結的機會增加許多,Google所獨創的網頁重要程度PR值分數,也淪為可以讓有心人士刻意去操控的分數,漸而失去了其公信力,因此,現在Google搜尋引擎也已經不再是單純以PR值來判定排名的次序,而是根據網站設計的結構來為網頁的分數下定義。

網站計數器