SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

米Google、コンテンツスパム対策の強化を発表

米Googleは2011年1月21日、検索エンジンスパム、とりわけ近年増加傾向にあるコンテンツスパム対策のためにアルゴリズムを改良したことを明らかにした。

Principal EngineerのMatt Cutts氏によると、近年、純粋なウェブスパムが減少傾向である一方、新たに内容が薄っぺらで低品質なコンテンツを掲載する「コンテンツファーム」に関心が集まっている。2010年にGoogleはこうしたサイトが検索上位に表示されないようにアルゴリズムの改良を実施しているが、必ずしも十分に機能しているわけではないのが実情だ。検索利用者からのこうした声を受けて、アルゴリズムの更なる改善に踏み切った。

今回、同社は新たにドキュメントレベルのスパム検出強化を行い、スパムコンテンツを掲載したページが検索結果上位に表示されにくくなるように改良した。この新しい検出技術は、キーワードの繰り返しや自動生成コンテンツ、ブログコメントスパムなど、ウェブページ上で展開されるスパムの検出能力が向上している。また、2010年に流行った不正改ざんサイトやコピペ(重複)コンテンツほとんどオリジナルティがないページといったスパムコンテンツなどの対策も大幅に改善されたと説明する。

Googleが今回、ウェブスパムを撲滅するために継続的な努力を実施していることを表明した背景には、最近、米国でGoogleの検索結果品質が低下していること、同社が十分なスパム対策を実施していないのではないかといった指摘に応えたものと思われる。Matt Cutts氏は改めて、「Googleは、広告主であるかどうかにかかわらず、品質ガイドラインに違反したサイトに断固とした措置を講じること」「Google広告の掲載は自然検索順位に何も影響しないこと」「Google広告の利用も同じく自然検索順位に何の影響もしないこと」を明言した。

As we’ve increased both our size and freshness in recent months, we’ve naturally indexed a lot of good content and some spam as well. To respond to that challenge, we recently launched a redesigned document-level classifier that makes it harder for spammy on-page content to rank highly. The new classifier is better at detecting spam on individual web pages, e.g., repeated spammy words—the sort of phrases you tend to see in junky, automated, self-promoting blog comments. [Google search and search engine spam, Google Blog]

#

ちょっと解説すると、CMSやAPI、RSSといった新しい技術の登場により、他人のサイトに掲載されているコンテンツをそのまま拝借してコピペサイトを構築したり、あるいは複数のサイトから適当に引っ張りだしたコンテンツを組み合わせて、あたかもオリジナルかのような(実際にはただのコピペ)サイトを作りだすことが簡単になってきました。たとえば、某飲食店サイトや某不動産情報サイトをAPIでひっぱってきてそのまま掲載しているコンテンツを山のように作っている(作っていた、過去)SEO会社というのは少なくありませんね。

また、確かに検索キーワードに合致するページは用意されているけれども、中身が空っぽ(たとえば、「この商品にはまだレビューが掲載されていません」「価格情報は登録されていません」「このキーワードについての説明はありません」といったメッセージを表示するページ)のページが自動的に生成されるような仕組みを持つECサイトやアグリゲーションサイトも増えました。

こうしたサイトは10年前のウェブにはあまり存在しませんでした。だからGoogleも新たに「コンテンツスパム」を上手に検出して、検索結果の上位に表示されにくいようなランキングアルゴリズムを開発する必要があったわけで、これがようやく(Google的には)成果を出し始めているんですよというのが今回のメッセージ。また、コンテンツミルをビジネスモデルとして成長する米Demand Mediaの生産する低品質コンテンツ対策という見方もできます。

で、実際に単純なコピペサイトや、APIで他人のサイトから引っ張ってきたサイトは現在、Googleでインデックスされにくくなっています。無意味文章生成ページ(ワードサラダ)はウェブページではほとんど通用しません。Twitter検索ではよく出現しますが、まだ140文字そこそこの文章で意味不明ツイートを区別するのは難しいのでしょう。ちなみにBingのリアルタイム検索は、ページのオリジナルではなくコピペページをそのまま検索結果に表示してしまうケースがありました(2010年12月時点)。今後の改善に期待。

個人的には(検索利用者の立場として)、「商品○○○の一覧ページ」というタイトルが付いているけれども1件も商品情報がないような、ゼロサーチ検索結果ページの存在が邪魔で仕方ありません。といいながら、SEOを念頭においたサイト設計をする際には、(シーズナリティや情報量、コミュニティの活発性など、諸々の変数によって)こうしたゼロサーチのページがどうしても生成されてしまうケースがあることを理解しているので悩ましいところですが。ユーザ参加による登録・編集型サイトの場合、ユーザの皆さんが積極的に書き込みしてくれなければ、単なる巨大なゴミでしかありません。

検索上位にいつも表示されているけれども、いつも内容が空っぽのサイトがあったら、検索利用者はサイトのドメインやロゴ・ブランドを見るだけで敬遠して離れて行ってしまいかねません。サイト運営側としては、情報が1件も登録されていないページは、自動的に noindex が付与されるようにして検索エンジン利用者に配慮するなどの対応は検討してみたらいかがでしょう。

COPYRIGHT © 1997-2021 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

お問い合わせ(お仕事の相談、講演依頼など)

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。