Googleの画像検索

なんか陰謀説まで飛び出して色々言われているけど、そもそもGoogleの画像検索自体が精度も更新頻度も低いサービスなのでその結果を取り上げて云々するのはどうなんだろう。
今言われているのは

  • 初音ミク」で検索しても製品のパッケージはおろか二次創作系の絵も上位にヒットしない
  • 外部からの依頼や恣意的な操作は否定している
  • 初音ミクの発売日は8/31で、画像のインデクシングの最終に行ったのはそれ以前と回答している
  • Yahooの画像検索もGoogleと同様にヒットしない
  • それ以外の検索サービスはおおむね適切な結果を返す

ということで、一番臭いのは最終更新が8/31より前という現時点での発表。テキスト検索ではほぼリアルタイムでの反映を実現しているのに画像の方は1ヶ月半以上も放置しているというのはおかしい。
ということで、本当に画像のインデックスが更新されていないのかを調べてみた。方法としては、8月上旬ぐらいから発売さたコミックの名前で検索し、その表紙がファーストビューに出てくるかどうか。対象としたのは特徴的なタイトルでコミックオリジナルでシリーズの1巻のもの。
結果は「見事、陰謀が暴露されました」あるいは「Google様がそんなことするはずない!」とのいずれ結論が出るものではなかった。一応数十件の本のタイトルを検索した限りだとGoogleが主張している時期より後に画像のキャッシュが更新された形跡は発見できなかった。
しかしそもそも、検索精度が良くないため表紙絵がズバリ出てくるケースが少ない。8月より前に発売された本でも少しマイナーな物は関連性の薄いノイズばかりがヒットするし、メジャーな物でも巻数違いがヒットしたりといった具合。ただ、テキスト検索用のインデックスも使っているようで、情報の更新はかなり頻繁に行われているようだ。そのインデックスを使って文字と画像の相関が高いと判断したらとりあえず表示するように頑張る。頑張るのはいいのだけど文脈まで判断しないので、全然関係ない画像ばかりが表示される。画像インデックスを作成したときには無いはずの単語でもテキストのインデックスからとりあずの結果を作ろうとするようだ。アマゾンの画像などをキャッシュすればほぼ確実なのだろうが、先方に遠慮してかそれらは全く使わない模様。テキスト検索ではほぼ確実にトップに来るのにね。
最近は放映されたアニメのキャプチャ画像をブログに貼ってる人も居たりするので、根性入れて画像キャッシュを探ればその作成された時期を特定するのは不可能でなんじゃないかな。私にはその根性はなかったけど。
敢えて結論をつけるとすれば、「Googleといっても万能じゃないよね」