コンテンツ品質を評価する検索アルゴリズム変更「パンダアップデート」
米Googleは2011年2月24日、大規模な検索ランキングアルゴリズムの変更(パンダ・アップデート)を実施したと公式ブログで発表した。米国の全検索クエリの11.8%*1に影響するという。
Googleは検索品質の改善を目的に継続的なアルゴリズムの変更・改良を実施しているが、その多くはユーザが気がつかない程度のものだ。しかし、今回は米国の全検索クエリの1割以上が影響を受けるとあって、近年希に見る大きなアルゴリズム変更といえる。米国(google.com)を皮切りに、順次、他国にも拡大していく計画だ。
高品質なコンテンツを探しやすくする狙い
同社によると、ランキングアルゴリズムの変更は、閲覧者にとって価値が薄い低品質なサイトや、他人のサイトから複製した役に立たないサイトが検索上位に表示されにくくすることを目的としたもの。同時に、オリジナルのコンテンツを持ち、調査やレポート、分析などの有益な情報を持つ高品質のサイトがランキング上位を享受できることを目指している。単にスパムサイトを排除するためだけでなく「人にとって役に立つ高品質なサイトを、適切に検索可能にする」という姿勢を改めて打ち出している点にも注目だ。
コンテンツファームの台頭と検索品質の低下
Googleは登場時にその検索精度・品質の高さを武器に多くのユーザの支持を得て、検索シェアを拡大してきた。しかし近年、その検索精度・関連性(Relevancy)について疑問を投げかけるユーザが増加している。たとえば昨年後半には、欧米の複数のブロガーが、具体的な検索クエリや用途を挙げながら検索品質の低下を指摘する記事が公開されて話題を集めている。また、米Demand Media や mahalo のように、人気キーワードをターゲットとして、ユーザにとって何の役にも立たないコンテンツを大量生産(Content Mill)して検索ランキング上位を獲得するビジネスが登場した事も、検索の関連性低下につながっていると指摘する専門家も多い。CMSやRSS、APIといった、コンテンツの拡散・複製・再構成を容易にする新たな技術が生まれ、それをランキング操作のために悪用するコンテンツスパムが増加したにもかかわらず、Googleのアルゴリズムがウェブの現状に十分にキャッチアップできていないことを示している。
こうした背景もあり、今年1月に同社はコンテンツファーム対策の強化に乗り出す方針を発表した。本日の発表においても依然として同社は自身が定義する「コンテンツファーム」について明確な言及を避けているが、先に述べた「検索文字列的には合致するが品質が伴わないコンテンツ」の排除を目的としていることは間違いないであろう
ただし、2月25日時点でDemand Mediaのメディアネットワークは影響を受けていない模様)。
どんな種類のコンテンツに影響するか
CMSによって自動生成された、主コンテンツが欠如したページ(検索クエリに対応するコンテンツが存在しない)、他のソーシャルウェブから集めてきたオリジナリティの低いコンテンツが大きな影響を受ける可能性が高い。ただし、大幅なアルゴリズム変更のため、本来は評価されるべき一部の高品質なサイトも、正当な評価を受けない(検索順位が低下する)可能性も十分にある。
なお、同社が先日発表した、Personal Blocklist Chrome extension から寄せられるデータを活用して今回のアルゴリズム変更が実施されたわけではないと説明している。しかし、ユーザがスパムサイトとして報告してきた多くのサイトが今回、アルゴリズムによっても自動的に識別されているとのこと。
Finding more high-quality sites in search
http://googleblog.blogspot.com/2011/02/finding-more-high-quality-sites-in.html
#
[1] 今回のGoogleアップデートをDanny Sullivan氏はFarmer Update(ファーマー・アップデート)と名付けている。Googleのアルゴリズム変更に対して誰かが命名してきた歴史があり、たとえば2003年から2004年にかけて発生したGoogleの大規模なランキングアルゴリズムの変動時には、Florida UpdateやAustin Updateなどと命名されている。なお、後にコンテンツ品質評価アルゴリズムの開発に携わった人物の名前が Panda(パンダ)であることから、以後「パンダ・アップデート」と呼ばれるようになっている(2012/03)。
[2] 今回のアルゴリズム変更は、本来、"対象"ではないサイトにも影響を与えているケースがあるようだ。昔から、比較的大きな変更を実施した際にはこうした現象は発生する。しかしGoogleはいつも、何度かアルゴリズムに微調整を加えることで問題の解決を図ってきているので、今回も数週間のうちにアルゴリズムの再調整が行われる可能性は高い。
[3] 日本にも「キーワード○○○に言及するブログ」「キーワード○○○を含む話題」といった軸でリンクと概要を書き並べただけのページが検索上位に表示されていることがよくある。あるいは、商品ごとに価格情報をとってきただけのページや、冠婚葬祭系のキーワードで検索すると上位に表示される、どれも似通ったハウツー系コンテンツを目にしたことがあるだろう。こうしたコンテンツは、浅はかな、有益とはほど遠いものであり、今回の新アルゴリズムのターゲットとなるだろう。google.co.jp にも適用された時に検索順位がどう変動するか。
*1:comScore 2011年1月データを元に計算すると、およそ10億検索クエリ