| adm | Find | login register |
eliu joined: 2007-08-09 posted: 11480 promoted: 617 bookmarked: 187 新竹, 台灣 |
[root@www httpd]# grep -i yahoo access_log | wc -l 本站才剛成立,沒多少文章,被24小時 crawl 半天,結果去 search,文章進去還很少。 去看 download 的 URL,大部份不是有內容的 URL,像是 search/login/edit ..,那當然沒用。 似乎應該要有統計分析那一個 .php 會有比較多的內容的能力。 | |||||||
本人已不在此站活動 joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 |
| |||||||
eliu joined: 2007-08-09 posted: 11480 promoted: 617 bookmarked: 187 新竹, 台灣 |
現在就可以用 robot.txt控制哪些不要 index,也可以用 <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> 只是懶得弄,現在看來,如果要讓自己的網頁能快點被搜尋到,最好還是要控制。 | |||||||
caleb joined: 2007-09-22 posted: 630 promoted: 134 bookmarked: 90 |
各家的 bot 都不是全抓,每個連結都進去砍站的話,根本砍不完。 新的站幾乎都不會有啥內容上大站吧,要等一陣子才行。 對於 low Page Rank site, Google search delay 個三五個月是蠻常見的。 對於各家 bot 的行為分析,網路上有詳細研究比較,找來看看還蠻好玩的。 | |||||||
eliu joined: 2007-08-09 posted: 11480 promoted: 617 bookmarked: 187 新竹, 台灣 |
以 Google 來說,效率似乎不太好,URL中 eid=???是隨 directory 變化的,login.php output 的內容是不會變的。 66.249.70.118 - - [22/Sep/2007:16:48:25 +0800] "GET /login.php?eid=107 HTTP/1.1" 200 716 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
# grep Google access_log | grep login.php | wc -l edited: 1
| |||||||
site admin joined: 2007-08-09 posted: 676 promoted: 16 bookmarked: 5 Taiwan |
由於 search engine 的 BOT 對新網站的 traverse quota 很小,search engine 常常去traverse 沒用的 URL,不僅浪費 quote,且造成不必要的 disk read/write。 決定還是把 robots.txt 給弄起來,以減少不必要的浪費。
| |||||||
eliu joined: 2007-08-09 posted: 11480 promoted: 617 bookmarked: 187 新竹, 台灣 |
加了 robots.txt 後,果然好很多,現在 access_log 看起來清爽多了。 現在只剩 baidu,完全不讀 robots.txt,果然是土匪。 China 還有一個 BOT 叫 yodao,就有 read robots.txt。 edited: 1
| |||||||
eliu joined: 2007-08-09 posted: 11480 promoted: 617 bookmarked: 187 新竹, 台灣 |
還有一個 QihooBot(顯然是China) 也是不看 robots.txt,台灣的 search engine 完全被 yahoo & google 消滅。 | |||||||
site admin joined: 2007-08-09 posted: 676 promoted: 16 bookmarked: 5 Taiwan |
baidu 也有,只是最多可能 5 天才抓一次 robots.txt |
| adm | Find | login register |