全站文章
iT邦幫忙
首 頁
新 聞
技 術
IT管理
研討會
iT邦幫忙
iT邦部落格
小7聚樂部
│
訂閱電子報
│
加入會員
│
RSS訂閱
│
新 聞
新 聞 專 題
即 時 新 聞
新 聞 簡 訊
技 術
產 品 報 導
技 術 專 題
IT 書 訊
IT管理
CIO
IT 人 物
專 欄
新 聞 總 覽
業 界 動 態
iThome Online提供免費電子報,現在就訂,最新IT訊息每日寄達。
iThome 每日新聞報
iThome 產品技術報
加入iThome Online會員,立即使用討論區、Blog等服務。
•
免費加入會員
•
登入
/
登出
•
管理會員帳號
•
忘記帳號密碼
•
聯絡客服
•
訂閱周刊
•
讀者服務
•
09'e政府專刊No.2 (35)
•
09'e教育專刊(34)
•
09'e政府專刊(33)
•
08'企業資安專刊-端點安全防護(32)
•
08'企業採購情報誌(31)
•
07'資訊安全技術應用專刊(30)
•
07' 新世代資料中心專刊(29)
•
07'企業資安技術應用專刊(28)
•
企業採購情報誌'06冬季號(27)
•
企業軟體技術應用專刊(25)
•
企業資安技術應用專刊(24)
實戰設計robots.txt與
標籤
文/
黃天賜
(記者) 2006-02-23
搜尋引擎的網路蜘蛛看似無孔不入,但它其實也是知所進退,有它的運作禮貌。設定適當的robots.txt與
,對於網站和搜尋引擎溝通相當大的幫助
網路蜘蛛並非不分青紅皂白一網打盡,只要適當規劃robots.txt與<META>標籤,企業網站就能安心與搜尋引擎和解共生。
搜尋引擎的網路蜘蛛看似無孔不入,但它其實也是知所進退,有它的運作禮貌。當網路蜘蛛到達網站的第一個動作,便是找尋並讀取robots.txt檔,並依照網站設定的限制再向下搜尋內容。讀取網頁時,位於網頁<HEAD></HEAD>之間的<META>標籤如果設有robot屬性,它也會依照指示來行動。因此,設定適當的robots.txt與<META>,對於網站和搜尋引擎溝通相當大的幫助。
建立告知禁止存取範圍的robots.txt
和網路蜘蛛溝通的辨法,是建立一個名為robots.txt的文字檔,內容陳述哪些目錄、檔案不希望被存取,再將這個檔案放置到網頁伺服器上。
robots.txt的內容由兩個部份組成,分別是user-agent與disallow。前者定義這個網站規則對哪些網路蜘蛛程式發揮作用,後者則是定義哪些目錄或檔案不想被搜尋。限制所有網路蜘蛛存取,並含及所有內容的robots.txt的寫法如下:
robots.txt撰寫範例1
# 全部限制存取的robots.txt
user-agent: *
disallow: /
第1行是註解欄,用#字符號標示,可以讓管理者加註。第2行則用*號表示對所有搜尋引擎的網路蜘蛛通用,第3行則告知程式「”/”」代表的根目錄以下的內容都不允許有存取動作,換言之,搜尋引擎便會忽略整個網站。
不過這種「大隱於市」的做法,通常不是企業所需,畢竟建置網站的目的是在與廣大的網路接用者增加接觸機會,禁絕所有網站內容和網路蜘蛛擷取,形同關上大門拒絕往來。就企業而言,設定目錄與資料類型管控,才能達到最佳效益。
robots.txt撰寫範例2
user-agent: *
disallow: /cig-bin
disallow:/members/data
disallow:/*.pdf$
在範例2中,第1行宣告下面的規則適用於所有網路蜘蛛,而第2行則是禁止存取cgi-bin目錄中的資訊,第3行告知members目錄底下的data目錄不希望被擷取,但members目錄底下如有其他目錄存在則不受影響。第4行宣告所有PDF格式的檔案禁止擷取,必須注意的是附檔名後面要加上「$」符號。如此就可以避免資料遭不當下載,被搜尋引擎作頁面庫存而被公開。禁止檔案格式的方式也可以限定在特定的目錄,以增加使用上的彈性。
另外,user-agent也可以針對個別的搜尋引擎作限定,舉例來說,可以用「user-agent:Googlebot」來阻絕Google的網路蜘蛛。
robots.txt撰寫範例3
user-agent: Googlebot-image
disallow:/*.jpg$
user-agent: *
disallow: /cig-bin
disallow:/members/data
disallow:/*.pdf$
範例3中,第1行是Google搜尋圖片的網路蜘蛛名稱,和第2行結合的結果是禁止Google搜尋圖片去抓取網站中所有jpg格式的圖片,而第3行以下則是套用範例2的限制,讓其他搜尋引擎不能存取cgi-bin、member/data和PDF格式的檔案。
robots.txt彈性而簡單的設定,讓網站管理者在內容控管上增加許多自主性,也避免了被搜尋引擎庫存網站敏感資訊的風險。不過如果有需要針對個別頁面做設定的需求,利用HTML的<META>語法,會比robots.txt要來得適用。
使用<META>標記宣告禁止索引與連結
除了可以使用robots.txt的方式來調整之外,另一種方式是以HTML的<META>標記語法做設定,告知網路蜘蛛不要產生網頁的索引及庫存。
<META>語法範例一
<HTML>
<HEAD>
<META NAME="robots" CONTENT="noindex,nofollow">
<TITLE>...</TITLE>
</HEAD>
<BODY>...
將上述<META>起始的語法放置在網頁<HEAD> 區段中,這個頁面就不會搜尋到,NAME的部份使用「robots」即可阻擋所有的網路蜘蛛,也可以指定特定名稱,例如Googlebot或Yahoo!Slurp,就可阻擋特定網站蜘蛛。CONTENT可指定noindex、nofollow等兩個屬性,noindex意指不可對本頁進行索引動作,nofollow指的是否可使用本頁的超連結再延伸出去擷取搜尋。
另外,Google提供更細項的調整設定,可以移除片段內容和快取網頁,片段內容是指出現在Google搜尋結果的網頁標題下的文字摘錄,通常描述網頁的內容。如要移除這段文字,則可以利用下方語法移除:
<META>語法範例二
<META NAME="Googlebot" CONTENT="nosnippet">
必須注意的是,移除片段內容同時也會移除快取的網頁。至於移除快取的網頁則是讓Google不會顯示快取的連結:
<META>語法範例三
<META NAME="Googlebot" CONTENT="noarchive">
若也想讓其他的搜尋引擎找不到,則將name指定的部份改成robots即可。而這個部份只能移除網頁快取的連結,但不會影響索引及片段內容。只要善加利用robots.txt與<META>語法,就可讓網站資訊安全更加穩固。文☉黃天賜
相關文章:
小心!別讓搜尋引擎洩露企業不當資訊
▼ ADVERTISEMENT ▼
▲ ADVERTISEMENT ▲
最新問答
[轉] 加退保資料遭駭客入侵 健保局提高資安監控
(shunyuan)
架VPN 中國網通與中國電信的問題
(wgsp)
如何記錄Oracle report 實際輸出時間
(agogo3391)
WSUS 用戶端回報問題
(takaki)
提供購物車系統的公司這麼多,哪一家比較好?
(celia812)
可以自動指定各種文件的列印格式嗎??
(yansan)
請問如何在windows7下執行C語言的編譯程式及程式何處可以下載
(jemy)
型男把妹必備--折凳
(cafequeen)
進不去外國網站
(hune75711)
三論專案的價格與成本
(franklintmc)
關於 IE7 的網址列
(koyoco)
[有話大聲說]Facebook好八卦啊∼
(cafequeen)
Office EXCEL,WORD無法存檔
(klm2242)
收到這樣的mail 是 什麼意思?還是病毒?
(kolom)
DNS錯誤,事件代碼4515
(lobo)
譯:Android 被 Linux kernel 社群開除
(shunyuan)
區域網路中毒影響主機遠端速度?如何解決
(allenhaw)
請推薦 Windows Server 2008 參考書籍
(arrigi)
側錄並備份
(bin89)
Excel 存檔/另存新檔時,無故變成異常很大?
(pcgo7)
熱門主題
我收了Google送的大紅包
(bluejack)
預測 G.ho.st 雲端服務的下一步
(superstanwu)
趨勢科技成立子公司騰雲計算 全力開發雲端技術超歐趕美(含開放職缺一覽表)
(domynews)
"不花一毛錢,就擁有上頓粉絲"微網誌的社交工程陷阱
(domynews)
危機處理差 豐田神話恐幻滅
(atlantischiu)
木馬散播強尼.戴普Johnny Depp假死訊
(domynews)
投資訊息 2010-02-03 瑞儀上月營收增逾10%,左擁蘋果,供應iPad背光模組30萬台;右抱三星,增加第二條LCM產線
(atlantischiu)
春節出國旅遊 線上訂票 當心還沒走透透 隱私偷光光?!
(domynews)
一個好用的軟體安裝下載網站:Ninite
(atlantischiu)
使用 WebDAV 方式連接 G.ho.st 雲端空間
(superstanwu)
Universal Extractor
(bigcandy)
企業必修「蘋果學」低利潤、低售價、低門檻、缺軟體四大危機
(atlantischiu)
情人節禮物:維多利亞內衣給的秘密禮物,真是毒一無二
(domynews)
[分享不分大小事]台灣熊的讀友的福利不要錯過∼送技嘉主機板的機會喔!
(gric)
賓果遊戲券產生器
(jamesjan)
投資訊息 2010-02-04 LED廠元月大放光芒,一詮營收年增近二倍,創海嘯來新高,華興攻頂,晶電、億光也成長
(atlantischiu)
梁靜茹的浪漫沙灘婚禮:菲律賓長灘島
(atlantischiu)
2010-02-04 這波向下修正已皆接近尾聲
(atlantischiu)
Excel公式無法自動更新
(jojochen)
IT 顧問 Talk: 我的顧問生涯開始到現在
(genehong)
電週文化事業版權所有、轉載必究 •Copyright © iThome |
刊登廣告
|
授權服務
|
服務信箱
|
隱私權聲明與會員使用條款
|
關於iThome
|
|