Yahoo於周一(4/14)表示,該公司最近正逐步更新搜尋引擎,並採用新的Yahoo! Slurp 3.0搜尋爬蟲機制,預計要幾周內分階段完成全球更新。

搜尋爬蟲(crawler)或稱網路爬蟲是搜尋引擎後端的重要元素,它在全球的網際網路上漫遊,並蒐集所有網站資料並回傳到搜尋引擎伺服器上。

Yahoo說明,新的Yahoo! Slurp 3.0仍能辨識與先前Yahoo! Slurp一樣的使用者代理人及所有的robots.txt指令,只是它在使用者的網頁紀錄上會將其視為Yahoo! Slurp 3.0。

Yahoo! Slurp 3.0將從一個不同的小群IP位址開始蒐集資料,但同樣來自crawl.yahoo.net domain。不過,Yahoo表示若網站業者使用以IP為基礎的爬蟲辨識設定,可能會被Yahoo爬蟲所忽略,因此強烈建議業者採用反向DNS辨識,任何利用反向DNS來確認Yahoo爬蟲的皆能持續運作。

此外,新爬蟲會發表一個新的Yahoo! Slurp/3.0使用者代理人,既有的Slurp或Yahoo! Slurp底下的robots.txt指令都能繼續運作,不過新爬蟲無法辨識以Slurp/2.0為名的使用者代理人指令。

robots.txt是一存放於網站根目錄中的文字檔案,用來定義網站上哪些內容可以或不能供網路爬蟲存取,Yahoo也在網站上說明如何利用robots.txt以避免網站或特定網頁資料不被搜尋引擎蒐集及索引。(編譯/陳曉莉)

熱門新聞

Advertisement