先週、米Googleがスパム対策強化のためにアルゴリズムを強化していく方針を公にしました。このブログでは、具体的に "コンテンツファーム" (Content farm)という言葉で表現されていましたが、一体コンテンツファームとは何を指すのでしょうか?
検索エンジンを標的として、コンテンツレベルでのスパムは、たとえば (1) ブログシステムとRSSやAPIなどを連携して自動的にコンテンツを生成する、(2) 意味の通らない文章を生成していくワードサラダといったSplog(スプログ)、(3) 低品質な情報コンテンツを大量生成していくコンテンツミル(Content Mill、コンテンツ工場)、(4) 互いにコンテンツを融通してオンラインに拡散していくアーティクルバンク(Article Bank)など多種多様です。
実はGoogle自身は「コンテンツファーム」の定義を示さなかったので「よくわからない」のですが、日々5000以上もの大量のコンテンツを日々配信するDemand Media(デマンドメディア)の台頭などの背景事情を考慮すると、とりわけ「一見すると情報として成立するが、その品質が極めて低いもの」がターゲットとなっているのではないかと推定されます。
繰り返しになりますが、Googleは明確に同言葉を定義していないため、公式ブログの内容を読むと誤解が生じかねない気がします。たとえば、あるメディアに先日、今回のGoogleの発表を受けて「OKWaveのQ&Aコンテンツを利用しているサイトが検索結果から消されるのではないか」といった指摘がありました。
しかし、本件とOKWaveのQ&Aコンテンツの件は、直接的には関係ありません。
Googleが言及しているのは、どちらかというとRSSやAPIなどを使って他人のサイトのコンテンツを適当にペタペタと複製して、広告やアフィリエイトリンクを埋め込むようなものを想定しているためです。あるいは、情報を入れる器(コンテナー)は用意しているけれども、中身が空っぽ・希薄で広告だけ貼り付けられたページが想定されています。最近は、ある商品に関する複数のレビューを複製してきて、それをきれいにレイアウトしているちょっと手のこんだアフィリエイトサイトも出てきましたが、こういったユーザの役に立たないページが、Googleの指摘しているコンテンツファームの一部でしょう。OKWaveの件は、コンテンツシンジケーションにおける重複・複製コンテンツの処理の問題です。
Googleは単純に全ての類似・同一コンテンツを掲載しているウェブサイトに「NO」を突きつけているわけではありません。様々なビジネスの取り組みにおいて、コンテンツを他企業に配信・提供すること(コンテンツシンジケーション)は一般的に行われています。
たとえば共同通信やロイター、AP通信といった通信社は、多くの新聞社に記事を配信します。結果として、多数の新聞社サイトに同一コンテンツ(=記事)が掲載されることになります。同様に、Internet WatchやITmedia、CNET Japanといったメディアの記事も他のサイトにも(互いの合意に基づいて、ビジネスとして)提供・掲載されています。こうした行いは、検索エンジンの存在の有無にかかわらず、経済活動の1つとして行われているインターネットにおける活動の1つですから、Googleはそれを念頭においてアルゴリズムを調整するわけです。つまり、重複したコンテンツを検索結果でどう処理するか、という課題です。
Googleは現在、重複コンテンツを発見した場合、原則としてオリジナルページ(コンテンツ)を検索上位に表示するように試みています。あるいは、同一コンテンツが掲載された2つのサイトを比較した時、両者の評価スコア(ランキングアルゴリズムによる、重要度や信頼度の評価。本記事では単に評価スコアとする)に著しいかい離があった場合、スコアが高い方を(高スコアを有する方がコンテンツのオリジナルホルダーである可能性が高いため)検索結果に表示し、一方を「非表示」とします。非表示とは、当該検索クエリにおいては検索結果に表示しないことで、検索結果情報の多様性(diversity)を担保するということです。削除ではありません。
ただし、コンテンツを掲載した複数のサイトが皆、評価スコアが高い場合 - つまり、『教えてgoo、MSN相談箱、OKWave』をはじめとするQ&Aサイトのネットワークを指す -、いずれも検索結果に表示されてしまいます。
一応、OKWaveのネットワークの中でも、評価が比較的低いサイトは検索結果にほとんど出現しないようになっている(アルゴリズムによってそういう調節がうまくいっているということ)のですが、教えてgooやMSN相談箱といった絶対的な評価が高いサイトは、非表示にはならないのです。理由は、単純にオリジナルホルダーを決定できない、非表示にするとシンジケーションビジネスを阻害する、など様々な理由や事情があります。
さらに言えば、OKWaveのQ&Aネットワークの場合、「オリジナルコンテンツの所有者」と呼べるものが(オンライン上は)存在しないため、いずれか1つしか検索結果に表示しなくなるのも問題となるでしょう。たとえば、「教えてgoo」を経由してQ&Aが投稿されても、BIGLOBEなんでも相談室を経由してQ&Aが投稿されても、そのコンテンツは皆で共有される仕組みです。
というわけで、今回の米Googleが発表した内容と、OKWaveの件は直接的には関係ないと思います※。単純に「コンテンツ供給を受けることが悪い」という誤った解釈はなさらないように皆さんご注意ください。Googleはコンテンツシンジケーションを否定しているわけではありません。低品質なサイトの排除が主目的です。
※ じゃぁ、検索クエリによって同一Q&Aコンテンツが多数ヒットしてしまう課題を放置していいかというと、それはまた別の話。実際、Twitter上でも邪魔という意見が多いことが示しているように。