Google在7月1日宣布,將推動發展歷史長達25年的機器人排除協定(Robots Exclusion Protocol,REP)成為正式標準,同時釋出Google內部所使用的robots.txt解析器,以協助開發人員打造客製化的解析工具。

REP又稱為robots.txt,是存放在網站根目錄下的文字檔案,它能與網路搜尋引擎的漫遊器或機器人交流,主要用來描述網站上的各式內容是否同意被漫遊器或機器人取得。

Google表示,自從Martijn Koster在1994年建立REP的初期標準再加上其它網站管理員的補充之後,REP已然成為產業標準,協助網站業者管理伺服器可被或禁止被爬梳的資源,亦受到各大搜尋引擎的青睞,不過,它一直未成為官方的網路標準。

由於它只是個產業標準,因此開發人員解析REP的方式多少有些不同,而且從未更新過的REP也未納入現代的邊角案例,對網站所有人來說,模糊的產業標準令他們難以撰寫正確的規則。於是Google與REP的原始作者、各大網站管理員及其它搜尋引擎業者合作,共同向網路工程任務小組(Internet Engineering Task Force,IETF)提交了REP草案,以期讓REP成為正式標準。

這份草案集結了由Googlebot、其它主要漫遊工具,以及約5億個網站所仰賴的robots.txt規則,它並未改變1994年所建立的規則,而是定義了robots.txt進行解析或比對時未曾被定義過的所有場景,進而將它延伸到現代網路。

例如不只是HTTP,不管是FTP或CoAP等基於URI的傳輸協定未來都可使用robots.txt,另也提出robots.txt的檔案大小限制,快取時間最多可達24小時以方便網站更新robots.txt,就算暫時無法存取robots.txt也會記得原本禁止存取的網頁。

此外,為了減輕開發人員的負擔,Google亦開源了內部系統用來解析及比對robots.txt規則的C++函式庫,該解析器納入了Google近20年來的經驗,也包含了邊角案例,以協助開發人員打造客製化的解析工具。


Advertisement

更多 iThome相關內容