一般來說,現在許多搜尋引擎都會利用許多「機器人」來你的網站爬文、收集資料。不過這有利也有弊,好處是能在各個搜尋引擎提高網站的曝光率,但要是有過多的「機器人」也有一種困擾,把你的頻寬吃光光也不是件好事。透過 robots.txt 可以設定哪些目錄、檔案不允許被「機器人」存取收集。至於 robots.txt 要放在哪兒呢?原則上是放在網站的根目錄下面就可以了 ~

接下來引用 hkwebs教學說明

這是 robots.txt 的設置規則

User-agent: {Spider名}
Disallow: {File位置}


假設我不讓任何 robots 來存取的話,就用這樣的範例

User-agent: *
Disallow: /


假設我不讓 Google 不能存取 /tmp/ 目錄中的資料的話,就用這樣的範例

User-agent: Googlebot
Disallow: /tmp/


規則大概就是這樣設置,其實不太難。下面附上搜尋引擎和機器人的對照表 ~

搜尋引擎 Robot 名稱

AltaVista


Scooter

InfoseekInfoseek
HotbotSlurp
AOL SearchSlurp
ExciteArchitextSpider
GoogleGooglebot
GotoSlurp
LycosLycos
MSNSlurp
NetscapeGooglebot
NorthernLightGulliver
WebCrawlerArchitextSpider
IwonSlurp
FastFast
DirectHitGrabber
Yahoo Web PagesGooglebot
Looksmart Web
Pages
Slurp
arrow
arrow
    全站熱搜

    Bojack 發表在 痞客邦 留言(0) 人氣()