一般來說,現在許多搜尋引擎都會利用許多「機器人」來你的網站爬文、收集資料。不過這有利也有弊,好處是能在各個搜尋引擎提高網站的曝光率,但要是有過多的「機器人」也有一種困擾,把你的頻寬吃光光也不是件好事。透過 robots.txt 可以設定哪些目錄、檔案不允許被「機器人」存取收集。至於 robots.txt 要放在哪兒呢?原則上是放在網站的根目錄下面就可以了 ~
接下來引用 hkwebs 的教學說明
這是 robots.txt 的設置規則
假設我不讓任何 robots 來存取的話,就用這樣的範例
假設我不讓 Google 不能存取 /tmp/ 目錄中的資料的話,就用這樣的範例
規則大概就是這樣設置,其實不太難。下面附上搜尋引擎和機器人的對照表 ~
接下來引用 hkwebs 的教學說明
這是 robots.txt 的設置規則
User-agent: {Spider名}
Disallow: {File位置}
假設我不讓任何 robots 來存取的話,就用這樣的範例
User-agent: *
Disallow: /
假設我不讓 Google 不能存取 /tmp/ 目錄中的資料的話,就用這樣的範例
User-agent: Googlebot
Disallow: /tmp/
規則大概就是這樣設置,其實不太難。下面附上搜尋引擎和機器人的對照表 ~
搜尋引擎 | Robot 名稱 |
AltaVista | Scooter |
Infoseek | Infoseek |
Hotbot | Slurp |
AOL Search | Slurp |
Excite | ArchitextSpider |
Googlebot | |
Goto | Slurp |
Lycos | Lycos |
MSN | Slurp |
Netscape | Googlebot |
NorthernLight | Gulliver |
WebCrawler | ArchitextSpider |
Iwon | Slurp |
Fast | Fast |
DirectHit | Grabber |
Yahoo Web Pages | Googlebot |
Looksmart Web Pages | Slurp |
全站熱搜
留言列表