米Google、コンテンツスパム対策の強化を発表

米グーグル、検索エンジンスパム対策強化のためにアルゴリズムを改良したことを公式ブログで発表した。


公開日時:2011年01月24日 09:26

米Googleは2011年1月21日、検索エンジンスパム、とりわけ近年増加傾向にあるコンテンツスパム対策のためにアルゴリズムを改良したことを明らかにした。

Principal EngineerのMatt Cutts氏によると、近年、純粋なウェブスパムが減少傾向である一方、新たに内容が薄っぺらで低品質なコンテンツを掲載する「コンテンツファーム」に関心が集まっている。2010年にGoogleはこうしたサイトが検索上位に表示されないようにアルゴリズムの改良を実施しているが、必ずしも十分に機能しているわけではないのが実情だ。検索利用者からのこうした声を受けて、アルゴリズムの更なる改善に踏み切った。

今回、同社は新たにドキュメントレベルのスパム検出強化を行い、スパムコンテンツを掲載したページが検索結果上位に表示されにくくなるように改良した。この新しい検出技術は、キーワードの繰り返しや自動生成コンテンツ、ブログコメントスパムなど、ウェブページ上で展開されるスパムの検出能力が向上している。また、2010年に流行った不正改ざんサイトやコピペ(重複)コンテンツほとんどオリジナルティがないページといったスパムコンテンツなどの対策も大幅に改善されたと説明する。

Googleが今回、ウェブスパムを撲滅するために継続的な努力を実施していることを表明した背景には、最近、米国でGoogleの検索結果品質が低下していること、同社が十分なスパム対策を実施していないのではないかといった指摘に応えたものと思われる。Matt Cutts氏は改めて、「Googleは、広告主であるかどうかにかかわらず、品質ガイドラインに違反したサイトに断固とした措置を講じること」「Google広告の掲載は自然検索順位に何も影響しないこと」「Google広告の利用も同じく自然検索順位に何の影響もしないこと」を明言した。


As we’ve increased both our size and freshness in recent months, we’ve naturally indexed a lot of good content and some spam as well. To respond to that challenge, we recently launched a redesigned document-level classifier that makes it harder for spammy on-page content to rank highly. The new classifier is better at detecting spam on individual web pages, e.g., repeated spammy words—the sort of phrases you tend to see in junky, automated, self-promoting blog comments. [Google search and search engine spam, Google Blog]


#
ちょっと解説すると、CMSやAPI、RSSといった新しい技術の登場により、他人のサイトに掲載されているコンテンツをそのまま拝借してコピペサイトを構築したり、あるいは複数のサイトから適当に引っ張りだしたコンテンツを組み合わせて、あたかもオリジナルかのような(実際にはただのコピペ)サイトを作りだすことが簡単になってきました。たとえば、某飲食店サイトや某不動産情報サイトをAPIでひっぱってきてそのまま掲載しているコンテンツを山のように作っている(作っていた、過去)SEO会社というのは少なくありませんね。

また、確かに検索キーワードに合致するページは用意されているけれども、中身が空っぽ(たとえば、「この商品にはまだレビューが掲載されていません」「価格情報は登録されていません」「このキーワードについての説明はありません」といったメッセージを表示するページ)のページが自動的に生成されるような仕組みを持つECサイトやアグリゲーションサイトも増えました。

こうしたサイトは10年前のウェブにはあまり存在しませんでした。だからGoogleも新たに「コンテンツスパム」を上手に検出して、検索結果の上位に表示されにくいようなランキングアルゴリズムを開発する必要があったわけで、これがようやく(Google的には)成果を出し始めているんですよというのが今回のメッセージ。また、コンテンツミルをビジネスモデルとして成長する米Demand Mediaの生産する低品質コンテンツ対策という見方もできます。

で、実際に単純なコピペサイトや、APIで他人のサイトから引っ張ってきたサイトは現在、Googleでインデックスされにくくなっています。無意味文章生成ページ(ワードサラダ)はウェブページではほとんど通用しません。Twitter検索ではよく出現しますが、まだ140文字そこそこの文章で意味不明ツイートを区別するのは難しいのでしょう。ちなみにBingのリアルタイム検索は、ページのオリジナルではなくコピペページをそのまま検索結果に表示してしまうケースがありました(2010年12月時点)。今後の改善に期待。

個人的には(検索利用者の立場として)、「商品○○○の一覧ページ」というタイトルが付いているけれども1件も商品情報がないような、ゼロサーチ検索結果ページの存在が邪魔で仕方ありません。といいながら、SEOを念頭においたサイト設計をする際には、(シーズナリティや情報量、コミュニティの活発性など、諸々の変数によって)こうしたゼロサーチのページがどうしても生成されてしまうケースがあることを理解しているので悩ましいところですが。ユーザ参加による登録・編集型サイトの場合、ユーザの皆さんが積極的に書き込みしてくれなければ、単なる巨大なゴミでしかありません。

検索上位にいつも表示されているけれども、いつも内容が空っぽのサイトがあったら、検索利用者はサイトのドメインやロゴ・ブランドを見るだけで敬遠して離れて行ってしまいかねません。サイト運営側としては、情報が1件も登録されていないページは、自動的に noindex が付与されるようにして検索エンジン利用者に配慮するなどの対応は検討してみたらいかがでしょう。





記事カテゴリ:Google 2010-2019, サーチニュース 2011
他の検索・SEO 関連の記事
新刊:ネットショップSEO 2014発売されました(2014年5月)
Googleマイビジネス、レビュー投稿ガイドラインを更新、レビューの選別や誘導を禁止
Googleモバイル検索が仕様変更、無限スクロール採用
グーグル、モバイルファーストインデックスへの移行を発表
グーグル、ダイレクトアンサーで「検索結果を表示しない」試験を中止
被写体の関連情報を表示する Google Lens が Android で利用可能に
Google、数週間内にも多くのサイトをモバイルファーストインデックスに移行
Google、画像検索結果の一部機能を廃止
Google検索、直接ホテル予約が可能に
Google、12月中旬の順位変動は日常的なアルゴリズム改良の一環と説明 業界では マカビーアップデート と命名も
グーグル、健康・医療に関連するページ評価方法を変更
「SEMリサーチ」トップへ戻る




免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。