robots.txt 檔案來攔截或移除網頁

使用 robots.txt 檔案來攔截或移除網頁

http://www.google.com.tw/support/webmasters/bin/answer.py?answer=35303

您可以使用 robots.txt 檔案來封鎖 Googlebot,使其無法檢索您網站上的網頁。

舉例來說,如果您要手動建立 robots.txt 檔案來封鎖 Googlebot 使其無法檢索特定目錄 (例如,狐猴 (lemurs)) 下的所有網頁,您必須使用下列 robots.txt 項目:

User-agent: Googlebot
Disallow: /狐猴

若要攔截 Googlebot 使其無法檢索特定檔案類型 (例如 .gif) 的所有檔案,您必須使用下列 robots.txt 項目:

User-agent: Googlebot
Disallow: /*.gif$

若要封鎖 Googlebot 使其無法檢索任何含有 ? 的 URL (更明確的說,這種 URL 以您的網域名稱為開頭,後面接著某個字串,再接一個問號,然後再接某個字串):

User-agent: Googlebot
Disallow: /*?

雖然我們不會對 robots.txt 所封鎖的網頁內容進行檢索或建立索引,但如果我們在網路上的其他網頁上找到這些 URL,仍會對其進行檢索或建立索引。 因此,網頁 URL 以及其他可能的公開資訊,例如網站連結中的其他文字或開放式目錄專案 (Open Directory Project,www.dmoz.org) 中的標題,都會出現在 Google 搜尋結果中。 不過,您網頁上的任何內容都不會受到檢索、索引或顯示。

若要完全避免某個網頁納入 Google 索引,即使有其他網站連結至該網頁,您可以使用 noindex 中繼標記,並確認該網頁沒有出現在 robots.txt 中。 在檢索這個網頁時,Googlebot 會識別 noindex 中繼標記,因此不會將此 URL 包含在索引中。

簡短形式:

您可以使用 robots.txt 檔案來封鎖 Googlebot,使其無法檢索您網站上的網頁。 但如果有其他網站對其進行連結,該網頁仍會出現在 Google 索引中。 不過,您網頁上的任何內容都不會受到檢索或索引。