buzzword「ビッグデータ」と統計の罠 東洋経済

bigdata Google や Amazon といった有名企業がセールスに使っている言葉が使ってみたくてしょうがないんだろう。

 しかし、どれだけ大量のデータであっても分析が頓珍漢では頓珍漢な答えしか出てこない。典型がこの店長。

ベテランの長谷川店長もデータには驚かされることが多いという。たとえば春巻の皮。これと一緒に最も検索される食材はトマトだった。次にハム、チーズ、バナナなどが続き、通常の春巻きの具は上位に入っていなかった。「顧客は『余った春巻きの皮で何を作ろう』と考えて、こうした食材が上位に上がったのだろう。家庭でどのような料理が作られているのか、ストーリーが見えた」(長谷川店長)。

 トマト、ハム、チーズ、バナナという検索語が春巻の皮の後に検索されているからといって春巻の皮と結びつけていいのか?餃子の皮の後にはそれらは検索されていないのか?むしろ、どんなワードの後にも検索される一般的な食材なのではないか?統計的な相関はとっているのか?単に順位を見ていても分からないはずだが。

 「春巻の皮」を検索したユーザが春巻きの具について検索しないのは当たり前だ。意外でも何でもない。なぜなら、春巻きの作り方を知りたい人間は「春巻き」で検索するからだ。そして、「春巻き」で検索すれば春巻きの具は分かる。

 「春巻の皮」で検索するのは春巻の皮を使ってできる他の料理だろう。そして、「春巻の皮」を検索した時点で余った春巻の皮の使い道はわかる。だから、その後で検索される語と春巻の皮とは無関係だと自分は考える。なぜなら、春巻の皮を使ってできる他の料理を調べたい時にトマトとかハムで検索しない。一度でもクックパッドを使ったら分かる。春巻の皮を使った料理を調べたい時にトマトで検索しても春巻の皮を使った料理を見つけられる可能性は限りなくゼロだ。

 この店長さん、自分でメニューを作るために悩んでクックパッドで検索してスーパーに買い物に行ったことがあるんだろうか?

 これは、どんな統計数字にも言えることだ。出てきた数字を正しく分析する能力がなければ宝の持ち腐れでしかない。

bigdata

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です