Google將推動REP成為正式標準，開源robots.txt解析器

Google在7月1日宣布，將推動發展歷史長達25年的機器人排除協定（Robots Exclusion Protocol，REP）成為正式標準，同時釋出Google內部所使用的robots.txt解析器，以協助開發人員打造客製化的解析工具。

REP又稱為robots.txt，是存放在網站根目錄下的文字檔案，它能與網路搜尋引擎的漫遊器或機器人交流，主要用來描述網站上的各式內容是否同意被漫遊器或機器人取得。

Google表示，自從Martijn Koster在1994年建立REP的初期標準再加上其它網站管理員的補充之後，REP已然成為產業標準，協助網站業者管理伺服器可被或禁止被爬梳的資源，亦受到各大搜尋引擎的青睞，不過，它一直未成為官方的網路標準。

由於它只是個產業標準，因此開發人員解析REP的方式多少有些不同，而且從未更新過的REP也未納入現代的邊角案例，對網站所有人來說，模糊的產業標準令他們難以撰寫正確的規則。於是Google與REP的原始作者、各大網站管理員及其它搜尋引擎業者合作，共同向網路工程任務小組（Internet Engineering Task Force，IETF）提交了REP草案，以期讓REP成為正式標準。

這份草案集結了由Googlebot、其它主要漫遊工具，以及約5億個網站所仰賴的robots.txt規則，它並未改變1994年所建立的規則，而是定義了robots.txt進行解析或比對時未曾被定義過的所有場景，進而將它延伸到現代網路。

例如不只是HTTP，不管是FTP或CoAP等基於URI的傳輸協定未來都可使用robots.txt，另也提出robots.txt的檔案大小限制，快取時間最多可達24小時以方便網站更新robots.txt，就算暫時無法存取robots.txt也會記得原本禁止存取的網頁。

此外，為了減輕開發人員的負擔，Google亦開源了內部系統用來解析及比對robots.txt規則的C++函式庫，該解析器納入了Google近20年來的經驗，也包含了邊角案例，以協助開發人員打造客製化的解析工具。

熱門新聞