[筆記]使用robots.txt限制網路蜘蛛

2009-08-08

12764
0
Microsoft

現今的搜尋引擎網路蜘蛛爬文能力超強
但過強的能力及沒有限制時間、深度或廣度的索引
不但會造成網路或伺服器負載過重，影響正常的網頁存取
更甚者可能造成資訊外洩

現今的搜尋引擎網路蜘蛛爬文能力超強
但過強的能力及沒有限制時間、深度或廣度的索引
不但會造成網路或伺服器負載過重，影響正常的網頁存取
更甚者可能造成資訊外洩
前陣子戰X策客戶資料外洩就是因為管理後台沒有啟用IP限制
又被各大搜尋引擎爬到資料
才會發生如此重大的資安事件
其中一個解決方法就是在網站的根目錄下建置robots.txt
設定哪些引擎的agent才可以對哪些目錄作索引

若要設定為禁止所有agent對網站索引(例管理後台)，robots.txt內容如下
User-Agent： *
Disallow： /

若要設定為僅允許Google對網站中的ch資料夾作索引
User-Agent： Googlebot
Allow： /ch/
User-Agent： *
Disallow： /

常用的agent對照：
Googlebot：Google 網頁索引及新聞索引
MediaPartners-Google：Google Adsense 索引網頁以決定廣告內容
Googlebot-Mobile：Google手機網頁索引
Googlebot-Image：索引網站裡的圖片
Adsbot-Google：索引廣告主的廣告網頁來看品質如何
Feedfetcher-Google：Google的Feed/RSS索引
MSNBot：MSN 索引機器人
del.icio.us-thumbnails：del.icio.us的網站縮略圖擷圖robot
Yahoo-Blogs：Yahoo部落格索引
Yahoo-MMAudVid：Yahoo多媒體檔案索引
YahooFeedSeeker：Yahoo的Feed/RSS索引

還可以針對特定檔案、檔案類型、副檔名設定
更可使用像？或＄等符號

詳細使用方法可參考下列網站
Google教學
 iThome教學
 cocolike blog
花水木樂多分站
 eion blogger

##感謝Jason的指導##

從諮商輔導人心
到諮商輔導資訊系統及網路世界
雖繞了一大圈但都是極具意義的事
秉持著過去所學朝著自己的興趣
體驗著一輩子只有一次的人生~~

回首頁