SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

同じコンテンツの公開に注意:SEO「重複コンテンツ」問題

RSSフィードなどの新しい情報流通フォーマットや、ブログやSNSに代表されるCGM(Consumer Generated Media、消費者がコンテンツを作成していくメディア)の増加により、検索エンジン各社は重複コンテンツ(URLは異なるがほぼ同一のコンテンツを持つページ)の扱いについても厳しくなってきている。Webサイト運営者は不必要に※1重複コンテンツが生成されないように注意を払うこと、また、コントロール可能であれば同じコンテンツを「検索エンジンに登録させない(クロールさせない)」ための措置が求められる。今回は、この「重複コンテンツ」の扱いについて説明しよう。

重複コンテンツ(Duplicate Content)とは

重複コンテンツとは、同一コンテンツが複数のURLに存在する状態を指す。検索エンジンは重複したコンテンツは基本的に登録を行うことはない。もし同じコンテンツを重複してインデックスしていくと、ある検索クエリに対する検索結果として同一内容を持つ異なるURLを複数表示することになり、検索利用者の検索体験の質低下を招くからだ。

したがって、Googleはもっとも評価が高い、あるいは一定以上の評価を受けたページのみを登録するし、Yahoo!は重複コンテンツと判定すればクロールをしないようになっている。

重複コンテンツは検索エンジンスパム「ではない」ので注意して欲しい。よく、「重複したコンテンツを公開するとスパムと判断されますか?」という質問を受けるが、この措置はスパム対策としての措置ではなく、検索利用者のための措置だ。同じ検索結果が表示されないようにするためのアルゴリズムにすぎない。

ただ、結果として検索結果への表示に障害が発生するのはWebサイト運営者にとって大問題であり、十分に配慮する必要があることに変わりはない。しかし現実のWebサイト運営において、システム上の問題で重複コンテンツが発生してしまうケースもあれば、悪意のある第三者によってコンテンツが作られたり、あるいは通常のビジネスを進めていく上で発生してしまう重複コンテンツもある。ここでは実際のケースを紹介しながら対応策を紹介していく。

Webサイト運営上の都合で発生するケース

先ほど触れたように、悪意がなくても重複コンテンツが生まれてしまうケースがある。

ケース1 Eコマースサイト

多数の商品を取り扱うECサイト(例えば家電)は、ユーザが色々な視点から目的の情報に辿り着けるようにするために、切り口を多数用意している。例えば「メーカー別」「価格別」「ブランド別」といった一般的な分類や「今月のお買い得品」「春の新商品」といったシーズナリティなどによる分類だ。こうしたカテゴリ分類を行った時、Webナビゲーションを構成する「パンくずリスト」の論理的な整合性を保つために、同一コンテンツ(同一商品・詳細情報)が複数のURLに存在してしまうことがある。

ケース2 Web閲覧用記事と印刷用記事

ニュースサイトの中には、たとえば japan.internet.comのようにWeb閲覧用のページとは別に印刷用のページを別途設けているケースがある。印刷してゆっくり読みたい、資料として保存しておきたいユーザのために印刷に最適化したレイアウトで用意されているわけだが、当然コンテンツ(この場合、記事本文)は同一だ。これは検索エンジンから見れば「(レイアウトの違いはあれど)コンテンツは同じ」とみなさざるを得ない。

重複コンテンツ問題の対処法

以上2つのケースは、Webサイトの運営・管理上の問題やユーザの利便性を考慮した結果として生まれてしまうものであり、決して悪意を持っているわけではないだろう。しかし検索エンジンに登録し適切に各々のページが評価される環境を作るために、次のような対応を検討しなければいけない。

対処法1: robots.txt を活用

こうしたWebサイトの運営・管理上の問題で生まれてしまう同一コンテンツに対処して適切に検索エンジンに登録させるにはどうすればよいだろうか。ここではいくつかの方法を紹介しよう。

まず robots.txt の活用だ。ニュースサイトの例に挙げた「印刷用/Web閲覧用」のようなコンテンツが発生してしまう場合、例えば印刷用のWebページが格納されるフォルダをWeb閲覧用とは別のものになるように指定した上で、robots.txt を用いて検索エンジンのクロールを拒否すればよい。例えば、印刷用Webページのフォルダが /print/ だった場合、検索エンジンがクロールしないように robots.txt で設定するには次のように記述すればよい。

User-agent: *

Disallow: /print/

対処法2: METAタグにクロール拒否を記述

クロールの拒否を行う確実な方法は robots.txt であるが、フォルダが整理されていない、法則性がないなどの理由で robots.txt でクローラを除外することができない場合もあるだろう。その場合は、個々のページのMETAタグにクロール拒否の記述をすることで対応できる。

ここでは記述例を見ながら解説する。

a. <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

CONTENT 内の NOINDEX は「インデックスさせない」、NOFOLLOWは「ページ上のリンクをたどらせない」という意味。上記の1行を記述したページは、検索エンジンにインデックスされないし、リンク先ページへ巡回されることもない。検索エンジンから除外したいページは通常、この記述をすればよい。

b. <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

"FOLLOW"となっている通り、ページはインデックスさせないけれどもリンクの巡回は許可することになる。ページそのものは検索にヒットさせなくないけれども、その先のページがクロール・登録されやすくしたい場合に利用できる。

c. <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

"INDEX"となっている通り、ページのインデックスは許可するけれども各々のリンクのクロールは禁止することになる。これはページ上で紹介したリンクが何らかの理由で検索エンジンにクロールさせたくない、あるいは、評価をさせたくはない、または広告として掲載している場合(これはウェブマスターの倫理観による)などに利用するが、一般的にこれを使わなければいけないケースは筆者が考えるにそう多くはないだろう。

参考:

Google ページの削除

http://www.google.co.jp/intl/ja/remove.html

Yahoo! 特定のページ、キャッシュを検索結果から削除したい

http://help.yahoo.co.jp/help/jp/search/indexing/indexing-12.html

ケース3 コンテンツシンジケーション(提携)

例えば CNET Japan や Internet Watch、japan.internet.com といったネット系のニュースサイトに掲載される記事の中には、全く同じものが Yahoo!JAPANのニュース内やその他ポータルサイトで掲載されることがある。これは各ニュースサイトがより集客力があるポータルサイトへ記事を配信することでリーチを広げ、多くの読者に閲覧してもらえるからだ。この場合も、同一コンテンツ(各ポータルサイトのナビゲーションやヘッダ/フッタなどを除いて)が複数のWebサイトで発生することになる。

ケース4 ニュースリリース配信サイトを利用する

企業がニュースリリースを投稿すると、複数のポータルサイトへも配信・掲載してくれるニュースリリース配信サイトがある。例えば News2u.net やValuePress! などだ。これは新商品やサービスの告知をより多くの人々に伝える機会が得られる一方、プレスリリースという同一のコンテンツが多数のWebサイトで発生してしまうことになる。

以上のケースは企業がネットで広報/PR活動を進めていく上で発生しうることだ。これもケース1~3同様に決して悪意があるわけではないが、結果として生まれた状況は検索エンジンがインデックスに含めるページを決定する上では問題が発生する可能性は否定できない。

こうしたケースでは、次のような対応が有効となる。

対処法3:オリジナルコンテンツに対してリンクを返す

同一コンテンツが複数URLで存在した場合、検索エンジンは次のような基準でオリジナルコンテンツ(コンテンツ保有者)を推定して、そのページを検索上位に表示するようにする。それは、同一コンテンツを持つページ(サイト)同士の中で、いずれもが同じページ(サイト)を指し示している、つまりリンクを張っている場合だ。

通常、他社から供給されたコンテンツを掲載するWebサイトは、その供給者のサイトに対してリンクを張ることが多い。例えば私が所属する企業・アイレップがjapan.internet.comにコンテンツを提供した場合、japan.internet.com がアイレップにリンクを張る。この場合、検索エンジンは複数URLにわたり存在する同一コンテンツの中からどのサイトにあるコンテンツがオリジナル(供給者)であるかを判定できるので、それを表示する。

たとえリンクが張られていない場合でも、通常、もっともリンクの評価が高いサイト上にあるコンテンツが表示されるので、一般的には供給した会社・個人のページが優先して検索上位に表示されるはずだ(最初にコンテンツを公開したサイトとオリジナルのコンテンツ保持者は同一になるケースが多いから)。

SEOを考慮した場合、コンテンツを第三者のWebサイトに供給する際には必ずリンクを自分のサイトに返してもらうということを押さえておけば、ほぼ問題はないだろう。例えば「提供元:○○○」といった形だけでも十分だ※2。

以上が他サイトにコンテンツを提供するシンジケーションを行った場合の対処法だ。

プレスリリースの場合は通常、本文中や末尾に会社概要とともにリンクを埋め込むはずなので、「オリジナル(この場合はリリース発行者)のサイトへリンクを返す」ことは通常のスキームですでに行われているはずなので特別な配慮は不要だろう。ただし、プレスリリース発行になれていない企業の中には、URLを大文字で記入する、URLが間違っている(これは問題外)、http:// が記載されていないなどの理由で検索エンジンがクロールできないケースがある。当たり前のことであるが、リリースを閲覧したユーザがWebサイトに1クリックでアクセスできるようにするためにも、またクローラが巡回できるように、きちんと半角で、はっきりとニュースリリースに掲載しておこう。

■ 注釈

※1 あるドメインにおいて膨大な量のWebページを持つサイトは、相応に充実した情報を持っていること、サイト内リンクとそのアンカーテキストの調整でランキングを優位に操作できること、また、オーソリティーサイトになるための1つの要件とされていたため、見かけ上のページ数を増やして相互にクロスリンクさせる手法が流行った。最近はこうした手法をとっても検索上位に表示することは難しい。

※2 コンテンツを掲載する側のサイトが、それを供給した側のサイトよりも明らかに検索エンジンからの評価が高い場合、このような施策を行っても常に供給先サイトが検索上位に表示されるケースもありうる。この場合のSEOの観点からの対処法は残念ながらない。

執筆:渡辺隆広

本原稿は、2007年3月1日時点のもの

COPYRIGHT © 1997-2021 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

お問い合わせ(お仕事の相談、講演依頼など)

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。