米GoogleウェブスパムチームのMatt Cutts氏が、ウェブスパム(検索エンジンスパム)を排除し検索品質を維持するために、どのように検索ログデータを活用しているかについて、公式ブログにて解説した。
検索利用者に対し、常に関連性が高く有益な検索結果を提供するために、何のユニークなコンテンツも持たず、無関係なリンクで埋めつくされたスパムページを検索結果から排除することはウェブスパムチームの役割だ。特に利用者が強く関連性のある情報を求めている時にこそスパムは頭を悩ます問題となる。表示された検索結果がアダルトサイトで埋めつくされていたら、有用ツールとしての検索エンジンの価値が大きく損なわれることになる。
こうした問題に対処し、検索結果の品質を維持するために活用する道具が、毎日蓄積される検索ログデータだ。IPアドレスやクッキー情報を持つログデータを使って指標を作成し、Google検索品質をインデックスサイズやカバレッジ、検索結果鮮度(フレッシュネス)、スパムなど様々な側面から評価・判定していくという。評価指標を作成した際には過去のログデータを利用して、過去数ヶ月の間Googleがどの程度効率よく対処していたのかを判定する。また、新型のウェブスパムをより正確に判定するための指標を作成した場合は、将来のスパム検知をトラッキングするだけでなく、過去数ヶ月あるいは数年の間Googleがどの程度このタイプのスパムに対応していたかも判断するために、検索ログを利用しているという。
こうした検索ログデータの活用により、Googleは新しいタイプのウェブスパムを素早く検出し、利用者の検索体験の質が低下する前に適切な対処をすることに成功しているという。その例としてMatt Cuttsは昨年の中国.cnドメインを使った大規模なスパム攻撃を挙げた。このウェブスパム攻撃はSEM系のブログで話題となったが実際にそれらスパムサイトを目にした検索利用者はそれほど多くなかったという。それは、Googleが即座に.cnスパムを認識し、素早く技術的プロジェクトを立ち上げスパム攻撃に対処したためだ。
最後にCuttsは、大多数の検索利用者がGoogleのウェブスパムチームの存在すら知らないことが理想的だとし、ウェブスパムチームが仕事を上手くすることで、時には低品質の検索結果を目にすることがあるかも知れないが、JavaScriptリダイレクトや望まないアダルトサイト、意味不明なページといった様々なスパムページを目にする必要はなくなるだろうと述べている。
Using data to fight webspam [Official Google Blog]
http://googleblog.blogspot.com/2008/06/using-data-to-fight-webspam.html