httpdのログ解析というとAnalogが有名だが、FedoraCoreにはwebalizerが標準で組み込まれている。FC1の時は設定にミスったのかちゃんと動かずに放置したが、今回はちゃんと動いて外部からも確認できるようにした。
忍者と違って全てのhttpdログを分析するので詳細だ。解析用イメージを入れていないページはもちろん、忍者では見分けがつかないblogの個別ページへのアクセスも特定(上位に入っている場合のみ)できる。
面白いのは、グラフィックにアクセスしないcrawler(スパイダー、ボット)やcgiへのリクエストも記録されていることだ。このうちダウンロード上位データには忍者では分からない順位が残っていた。ほとんどがcrawlerだ(inktomisearch.comがそうなのかどうかは分からないがパターンはcrawlerに酷似している)。これらは忍者では見ることができないし、現れたとしても回数としては1回としてしかカウントされない。トップのalexa.comは1回のアクセスで500近いページをあさり50M近いデータをダウンロードして行ったらしい。忍者に載る数百回のアクセスよりこちらのほうがはるかにサーバにかかる負荷は高いだろう。
この資料は、11月1日の0時から午前4時までの統計なので突出した可能性もあるが、普通のアクセスとは桁違いだから月末に見てもあまり上位に変動はなさそうだ。
Top 10 of 357 Total Sites By KBytes
# Hits KBytes % visit Hostname
1 489 49,775 69.68% 1 crawl24-public.alexa.com
2 62 2,901 4.06% 1 crawl-66-249-66-231.googlebot.com
3 2 1,676 2.35% 2 lj2082.inktomisearch.com
4 1 1,676 2.35% 1 lj2255.inktomisearch.com
5 1 1,676 2.35% 1 lj2454.inktomisearch.com
6 38 1,017 1.42% 1 flh1aau125.kng.mesh.ad.jp
7 113 990 1.39% 1 (iMac)
8 48 867 1.21% 2 crs039.goo.ne.jp
9 1 688 0.96% 1 lj2113.inktomisearch.com
10 1 688 0.96% 1 lj2201.inktomisearch.com
後、アクセス数のランクにも面白いものがあった。ここでは、コメントcgiがトップ、トラックバックが3位に入っている。しかも、コメントはダントツだ。面白いというのは、新着コメントを見れば分かる。ここ何週間かコメントは一つもついてない。にもかかわらずこれだけの回数コメントcgiが呼ばれている。ということは、コメントスパマーによる書き込みと考えられる。たった数時間で400回近い呼び出しとは恐れ入る。ただ、トラックバックスパマーによるmt-tb.cgiの呼び出しが51回あるのに実際に登録されているのは数回であることを考えると、ページIDを変数にした絨毯爆撃をかけているんだろう。
Top 10 of 161 Total Entry Pages
# Hits Visits URL
1 385 20.95% 125 32.64% /cgi-bin/mt/mt-comments.cgi
2 98 5.33% 60 15.67% /geek/
3 51 2.77% 17 4.44% /cgi-bin/mt/mt-tb.cgi
4 13 0.71% 6 1.57% /rankin/
5 6 0.33% 4 1.04% /rankin/cgi/yybbs/yybbs.cgi
これらを見ていると、実際にクリックして読んでくれる人より、ボット(crawlerかスパムかは別として)によるアクセスのほうがはるかに多いことになる。しかも、こんな過疎ブログですらそうなのだからいろんなランキングの上位に入っているようなサイトは桁違いだろう。