Yahoo更新 Slurp 3.0搜尋爬蟲機制

Yahoo於周一（4/14）表示，該公司最近正逐步更新搜尋引擎，並採用新的Yahoo! Slurp 3.0搜尋爬蟲機制，預計要幾周內分階段完成全球更新。

搜尋爬蟲（crawler）或稱網路爬蟲是搜尋引擎後端的重要元素，它在全球的網際網路上漫遊，並蒐集所有網站資料並回傳到搜尋引擎伺服器上。

Yahoo說明，新的Yahoo! Slurp 3.0仍能辨識與先前Yahoo! Slurp一樣的使用者代理人及所有的robots.txt指令，只是它在使用者的網頁紀錄上會將其視為Yahoo! Slurp 3.0。

Yahoo! Slurp 3.0將從一個不同的小群IP位址開始蒐集資料，但同樣來自crawl.yahoo.net domain。不過，Yahoo表示若網站業者使用以IP為基礎的爬蟲辨識設定，可能會被Yahoo爬蟲所忽略，因此強烈建議業者採用反向DNS辨識，任何利用反向DNS來確認Yahoo爬蟲的皆能持續運作。

此外，新爬蟲會發表一個新的Yahoo! Slurp/3.0使用者代理人，既有的Slurp或Yahoo! Slurp底下的robots.txt指令都能繼續運作，不過新爬蟲無法辨識以Slurp/2.0為名的使用者代理人指令。

robots.txt是一存放於網站根目錄中的文字檔案，用來定義網站上哪些內容可以或不能供網路爬蟲存取，Yahoo也在網站上說明如何利用robots.txt以避免網站或特定網頁資料不被搜尋引擎蒐集及索引。（編譯/陳曉莉）

熱門新聞