SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

Google、重複コンテンツ(コピペサイト)の対処方法について解説

米Googleは2008年6月9日、近年SEOの領域で話題として取り上げられる機会が多い、重複コンテンツ(duplicate content)問題についてのGoogleの取組みと解決方法について説明した。公式ブログ(Official Google Webmaster Central Blog)にて、検索品質担当チーム・Sven Naumann氏が解説した。

私は本ブログほかいくつかのコラムで何度も重複コンテンツの問題を取り上げているし、また、この問題と対処方法については米国で開催される各種コンファレンスで何度となく既出の話であるが、ここでは日本のサイト制作者やマーケッター向けに改めて基礎情報をまとめつつ、公式ブログで取り上げられたGoogleの見解やその他検索品質担当チームの意見を紹介していく。

重複コンテンツ(Duplicate Content)とは

重複コンテンツとは、異なるページ(URL)に全く同一のコンテンツが掲載されていることを指す。ここでいう重複とは、グローバルナビやフッターなど、共通して設置される機能パーツを除く、ページのトピック(コンテンツ)にかかわる部分における重複の問題を指して取り上げられる話題だ。

近年、ブログやRSSフィード、ソーシャルサービスの登場により、外部のサイトに自分のコンテンツがそのまま掲載されるケースが増えている。たとえば、出力したRSSフィードをそのまま他のサイトが転載したケース、個人がメモがわりに全文をコピペしたケース、AdSenseなどコンテンツ連動型広告による小遣い稼ぎを目的とした、悪質なコンテンツコピペ、はてなやBuzzurlなどのソーシャルブックマークサービスによる「抜粋」という名目の下に生成されるコンテンツコピー発生ケースが考えられる。また、自分のドメイン内においても、CMS(コンテンツ管理システム)の仕様により、あるコンテンツを複数のカテゴリに所属させた場合にコンテンツが重複したり(Eコマースサイトでよくある)、異なる事業部が独立してウェブを管理し、互いが同じコンテンツを使って公開してしまうという企業のオペレーションの問題を起因として重複が生まれるケースもある。また、ウェブ表示用と印刷用にページを分けている場合も、両者はレイアウトこそ違えど検索エンジンから見れば重複していることになり、ユーザーの利便性を考えたサイト運営の結果が問題を引き起こすこともありうる。

スパムではないが、検索結果から「非表示」に

検索エンジンにとって、内容が同じページを識別し、それを検索結果でコントロールすることはサービス品質を維持する上で重要である。なぜなら、あるキーワードで検索した時に、コンテンツが同じページを多数検索結果に表示することは、ユーザーに提示する選択候補の幅を著しく狭め、検索体験の質の低下を招くためだ。そこで検索エンジンは、重複したコンテンツを同時に検索結果に表示しないようにする、つまり、いくつかのページを非表示にするという対応を取ることになる。

この「非表示にする」ことを理由に、重複コンテンツは検索エンジンスパムだと誤認識している人も多いのだが、Googleはこれを否定。『複数サイトに点在する同一コンテンツが表示されることはウェブマスターガイドラインの違反というわけではない』と説明している。この件についてはGoogleウェブスパムチームの複数の担当者も「重複コンテンツの問題は検索ユーザーの利便性を考えた上での対応であり、検索エンジンスパムという判断ではない」との見解を表明している(ad:tech、04/2007)※。

MFAや不正コピーサイトは基本的に表示されない

検索結果に同一コンテンツを多数表示しないために、Googleはアルゴリズムによりオリジネーター(コンテンツの元の作成者・サイト)を識別し、そのサイトは非表示ではなく検索結果に表示されるように配慮している。これはウェブ上の公開日時だけでなくリンク構造など他の様々な要素を用いて総合的に判断を行っている。したがって、小遣い稼ぎのスクラップコンテンツや個人ブログによるコピペなど、サイト運営者の許諾を得ていない、コピーサイトが検索上位に表示されることは基本的にはない。

もちろん、サイト運営者の許諾を得てシンジケーションしている、たとえば インターネットコム(オリジネーター)とYahoo!ニュース(シンジケーション)、SEMリサーチ(オリジネーター)とlivedoorニュース(シンジケーション)の関係のようにサイト許諾を得ているようなケースは大抵、検索結果にどちらも表示される。当然ながら、検索エンジンは、各々の関係が許諾を得ているか、得ていないかなど知りえないわけだが、結果として(検索ユーザーにとって不利益なものが)表示されないようなアルゴリズムの調整がなされている。

さて、Googleはこうした重複問題について、(1) 重複コンテンツが同一ドメイン内に存在する場合、(2) 重複コンテンツが他のドメインに存在する場合、の2つに分けて対応方法を紹介している。

重複コンテンツが同一ドメインに存在する場合の対処法

前者については、インデックスを望まないページを robots.txtやMETAタグ(noindex) で排除する、という方法を紹介している。印刷用・ウェブ用でページが分かれている、CMSの仕様による重複コンテンツが生成されてしまうケースでは、あらかじめ登録させたくない方のページを特定名称のフォルダにおさめておいてrobots.txt でクロール拒否設定すると簡単に管理できる。たとえば、印刷用ページは全て printer というフォルダに入れておいて、robots.txt で printer はクロールさせなければ解決する。

重複コンテンツが異なるドメインに存在する場合の対処法

後者は、ケースによって対処法が異なるが、実際のところ先述したとおり、許諾を得ていないようなコピペサイトなどはアルゴリズムの処理でそもそも検索上位には表示されないので、トラフィックを奪われるといった実害は実質的に発生しない(もし、コピペされたことを起こるのであれば、それは検索技術の問題ではなく法律の問題なので、コピーサイトに対して警告するなど他の対処をすればいい)。サイト管理者側で特別な対処は基本的には必要としない。RSSフィードを通じて全文配信しているが、重複コンテンツと判断されないかと心配する人は多いが、大抵、上手い具合にフィードを出力しているオリジナルの方が検索上位に表示されているはずである。

コピー・提携先サイトがオリジナルより上位に表示される場合の対処法

なお、シンジケーションサイトが複数存在する場合、オリジネーターのサイトよりもシンジケーションサイトの方が検索上位に表示されてしまうというケースは少なくない。たとえば、オリジネーターのサイトよりもシンジケーション側の(検索エンジンからの)絶対評価※が高い場合がそうだ(「絶対評価」の概念はここでは説明しませんが、わからない人も多いと思うので後日解説(たぶん)。極端な例を挙げると、誰にも知られていない、極めてマイナーなブログのコンテンツがYahoo!に掲載されると、たぶんYahoo!の方が表示されてしまう)。あるいは、BuzzurlのようにSEOに注力しているソーシャルブックマークに本文の一部を引用されてしまうと、オリジネーターよりもソーシャルブックマークの登録ページが検索上位に表示されてしまうこともある。

対処法(1) METAタグやrobots.txtでクロールを拒否する

こうした場合の対処法は、前者についてはGoogleがよく使うアドバイス「オリジナルの方にリンクを返す」ということを行う。つまり、シンジケーションサイトは通常、記事の提供元を明記するはずなので、そこに自分のサイトへのリンクを返してもらうことだ。たとえば、SEMリサーチの記事はlivedoorニュースにも掲載されているが、livedoorニュースからSEMリサーチにリンクが張られている。筆者が所属するアイレップでも同様にインターネットコムに記事を提供しているが、同サイトからアイレップに対してリンクが返されている。このように、提供先サイトが提供元サイトにリンクを張る(この行為はSEO関係なく、通常のビジネス慣習として行われているはず)ことによって、検索エンジンはオリジネーターを識別する時の判断材料として利用する。

対処法(2) 必要に応じて、引用拒否という方法も

後者のソーシャルサービスによる引用については、「引用させない」ようにrobots.txtやMETAタグ を用意する。たとえば「はてな」は引用を望まないサイト運営者向けに、引用拒否用のタグを用意しているので、もし「はてなブックマークの方が上位に表示されて困る」という悩みを持っているサイト運営者は、引用させないという対応をすることだ。Buzzurlはそういうタグはないので注意(ないと思う。FAQページ見たけどそれらしき情報はない。もしあったらご指摘ください→Buzzurl関係者 [UPDATE] と言ったらすぐ対応してくれた!Buzzurl、本文引用拒否するMETAタグ buzzurl noindex 用意)。

言葉の言い換えコピーサイトの対処法

【追記】 コンテンツ不正利用のコピペサイトについて。全く同一のコンテンツをコピペされる限りは検索アルゴリズムで自動的に排除されるが、文言を変えられた場合は別。例えば、私が過去に書いた「重複コンテンツ」の記事について、言葉を「デュプリケートコンテンツ」と言い換えてコピペしている人がいる。このケースでは、検索キーワードによってそちらのコピペサイトが上位に表示されることもある。この問題に対処したい時は、検索エンジンにクレームするのではなくて、そのコピペした人に対して著作権違反を指摘した方が早い。もし、その著作権侵害者に無視され、かつトラフィックが奪われて被害を蒙っているのであれば、デジタルミレニアム著作権法(DMCA)に従って検索エンジンにクレームをすればよい。

※ Googleの発言について補足説明を加える。もし、こうした(同じコンテンツが異なるドメインに存在する)状態をスパムであるとみなすと、News2uやバリュープレスのようなプレスリリース配信サイトの行為が悪いことになってしまう。これら会社は検索やSEOの世界と関係なく、通常の経済活動の一環として行っているのであり、そういった当然発生しうるものは「スパム」とは判断しない。ただし、同じプレスリリースを延々と検索結果に表示することは検索ユーザーにとってメリットがないので、検索エンジン側の判断で表示するページを取捨選択するという話。合理的な理由に基づいて特定のページが検索上位に表示されない状態になっていることと、それをスパムと呼称するかどうかは別の問題。関連として、Yahoo!検索で純粋アフィリエイトサイトが上位に表示されにくいのも、アフィリエイトサイトの存在がスパムなのではなく、そういった情報が検索上位に表示されることが検索の関連性(レレバンシー)という観点において適切なのか?を検討したYahoo!の決断の結果。

Duplicate content due to scrapers [Google Webmaster Central Blog]

http://googlewebmastercentral.blogspot.com/2008/06/duplicate-content-due-to-scrapers.html

#

この問題はよく質問されるのですが、対処方法がほとんど検索エンジン側から情報開示されているので、それをサイト制作に携わる人が読んで勉強した方がいい

COPYRIGHT © 1997-2021 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

お問い合わせ(お仕事の相談、講演依頼など)

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。