如何設定 robots.txt @ 從有為青年變成有為中年男子的生活札記

一般來說，現在許多搜尋引擎都會利用許多「機器人」來你的網站爬文、收集資料。不過這有利也有弊，好處是能在各個搜尋引擎提高網站的曝光率，但要是有過多的「機器人」也有一種困擾，把你的頻寬吃光光也不是件好事。透過 robots.txt 可以設定哪些目錄、檔案不允許被「機器人」存取收集。至於 robots.txt 要放在哪兒呢？原則上是放在網站的根目錄下面就可以了 ~

接下來引用 hkwebs 的教學說明

這是 robots.txt 的設置規則

User-agent: {Spider名}
Disallow: {File位置}

假設我不讓任何 robots 來存取的話，就用這樣的範例

User-agent: *
Disallow: /

假設我不讓 Google 不能存取 /tmp/ 目錄中的資料的話，就用這樣的範例

User-agent: Googlebot
Disallow: /tmp/

規則大概就是這樣設置，其實不太難。下面附上搜尋引擎和機器人的對照表 ~

搜尋引擎	Robot 名稱
AltaVista	Scooter
Infoseek	Infoseek
Hotbot	Slurp
AOL Search	Slurp
Excite	ArchitextSpider
Google	Googlebot
Goto	Slurp
Lycos	Lycos
MSN	Slurp
Netscape	Googlebot
NorthernLight	Gulliver
WebCrawler	ArchitextSpider
Iwon	Slurp
Fast	Fast
DirectHit	Grabber
Yahoo Web Pages	Googlebot
Looksmart Web Pages	Slurp

Bojack

從有為青年變成有為中年男子的生活札記

Bojack 發表在痞客邦留言(0) 人氣()

E-mail轉寄

從有為青年變成有為中年男子的生活札記

一個有關 FreeBSD、Linux、虛擬化、PHP、網路管理、資訊安全及 IT 相關的 Blog

如何設定 robots.txt

歷史上的今天

留言列表

文章搜尋

最新文章

文章分類

資訊相關 (15)

生活相關 (3)

雜七雜八 (3)

最新迴響

參觀人氣