[筆記]使用robots.txt限制網路蜘蛛

現今的搜尋引擎網路蜘蛛爬文能力超強
但過強的能力及沒有限制時間、深度或廣度的索引
不但會造成網路或伺服器負載過重,影響正常的網頁存取
更甚者可能造成資訊外洩

現今的搜尋引擎網路蜘蛛爬文能力超強
但過強的能力及沒有限制時間、深度或廣度的索引
不但會造成網路或伺服器負載過重,影響正常的網頁存取
更甚者可能造成資訊外洩
前陣子戰X策客戶資料外洩就是因為管理後台沒有啟用IP限制
又被各大搜尋引擎爬到資料
才會發生如此重大的資安事件
其中一個解決方法就是在網站的根目錄下建置robots.txt
設定哪些引擎的agent才可以對哪些目錄作索引

若要設定為禁止所有agent對網站索引(例管理後台),robots.txt內容如下
User-Agent: *
Disallow: /


若要設定為僅允許Google對網站中的ch資料夾作索引
User-Agent: Googlebot
Allow: /ch/
User-Agent: *
Disallow: /


常用的agent對照:
  Googlebot:Google 網頁索引及新聞索引
  MediaPartners-Google:Google Adsense 索引網頁以決定廣告內容
  Googlebot-Mobile:Google手機網頁索引
  Googlebot-Image:索引網站裡的圖片
  Adsbot-Google:索引廣告主的廣告網頁來看品質如何
  Feedfetcher-Google:Google的Feed/RSS索引
  MSNBot:MSN 索引機器人
  del.icio.us-thumbnails:del.icio.us的網站縮略圖擷圖robot
  Yahoo-Blogs:Yahoo部落格索引
  Yahoo-MMAudVid:Yahoo多媒體檔案索引
  YahooFeedSeeker:Yahoo的Feed/RSS索引

還可以針對特定檔案、檔案類型、副檔名設定
更可使用像?或$等符號

詳細使用方法可參考下列網站
Google教學
iThome教學
cocolike blog
花水木樂多分站
eion blogger


##感謝Jason的指導##


從諮商輔導人心
到諮商輔導資訊系統及網路世界
雖繞了一大圈 但都是極具意義的事
秉持著過去所學 朝著自己的興趣
體驗著一輩子只有一次的人生~~