現今的搜尋引擎網路蜘蛛爬文能力超強
但過強的能力及沒有限制時間、深度或廣度的索引
不但會造成網路或伺服器負載過重,影響正常的網頁存取
更甚者可能造成資訊外洩
現今的搜尋引擎網路蜘蛛爬文能力超強
但過強的能力及沒有限制時間、深度或廣度的索引
不但會造成網路或伺服器負載過重,影響正常的網頁存取
更甚者可能造成資訊外洩
前陣子戰X策客戶資料外洩就是因為管理後台沒有啟用IP限制
又被各大搜尋引擎爬到資料
才會發生如此重大的資安事件
其中一個解決方法就是在網站的根目錄下建置robots.txt
設定哪些引擎的agent才可以對哪些目錄作索引
若要設定為禁止所有agent對網站索引(例管理後台),robots.txt內容如下
User-Agent: *
Disallow: /
若要設定為僅允許Google對網站中的ch資料夾作索引
User-Agent: Googlebot
Allow: /ch/
User-Agent: *
Disallow: /
常用的agent對照:
Googlebot:Google 網頁索引及新聞索引
MediaPartners-Google:Google Adsense 索引網頁以決定廣告內容
Googlebot-Mobile:Google手機網頁索引
Googlebot-Image:索引網站裡的圖片
Adsbot-Google:索引廣告主的廣告網頁來看品質如何
Feedfetcher-Google:Google的Feed/RSS索引
MSNBot:MSN 索引機器人
del.icio.us-thumbnails:del.icio.us的網站縮略圖擷圖robot
Yahoo-Blogs:Yahoo部落格索引
Yahoo-MMAudVid:Yahoo多媒體檔案索引
YahooFeedSeeker:Yahoo的Feed/RSS索引
還可以針對特定檔案、檔案類型、副檔名設定
更可使用像?或$等符號
詳細使用方法可參考下列網站
Google教學
iThome教學
cocolike blog
花水木樂多分站
eion blogger
##感謝Jason的指導##
從諮商輔導人心
到諮商輔導資訊系統及網路世界
雖繞了一大圈 但都是極具意義的事
秉持著過去所學 朝著自己的興趣
體驗著一輩子只有一次的人生~~