ブログやSNSといった手軽な情報発信ツールや他サイトのコンテンツの取り込み、あるいは他サイトへの提供が簡単にできるRSSフィード技術や関連ツールの広がりが、SEOを行う上であらたな問題を引き起こしている。それが「重複コンテンツ」の問題だ。
重複コンテンツとは、同一コンテンツが複数のURLに存在する状態を指す。検索エンジンは通常、あるキーワードに対する検索結果に同一コンテンツを持つページを複数表示することはない。10件表示という検索結果は、ユーザーの検索ニーズに応えうる様々な選択肢を提示することが求められ、もし同一内容のページばかりへのリンクを掲載したらサービスの品質低下を招くことになるからだ。従って、例えばGoogleは同一コンテンツのページを複数見つけた場合は、最も重要性が高いと判断されたページを表示するし、Yahoo!は重複コンテンツと判定したページをインデックスしない。
Webサイト運営者からすれば、希望する検索キーワードで上位表示する大前提として検索エンジンのデータベースに登録されることは必須条件であり、それが満たされない、あるいは本来意図した - ユーザを誘導したいと考えたページが表示されない - のであれば大きな問題となる。しかし、冒頭で述べたようなブログやSNSの存在、RSSフィードによるシンジケーションはもちろん様々な過程を通じて発生した重複コンテンツによりインデックスに支障をもたらすケースがある。
例えばニュースサイトはブラウザ閲覧用のページとは別に、印刷用のページを用意している場合がある。ニュースサイトによってはパソコン上で閲覧するだけでなく、紙に印刷して閲覧するユーザーの存在を考慮して、通常のWebページとは別に「プリンター用」という印刷向けに最適にレイアウトされたページを用意している場合がある。この場合、「PC用」と「プリンター用」は当然ながらコンテンツ(文章)は同じだ。また、数多くの商品点数を抱えるEコマースサイトの場合、「メーカー別」「ブランド別」「用途別」と複数のカテゴリ階層でアーキテクチャが構成されている時、各々の階層に同一商品のページが異なるURLで生成されてしまうこともある。いずれの場合も、全く同じコンテンツが存在することになり、検索エンジンに適切に登録されない問題を招く場合がある。
冒頭で触れたブログやSNSは、第三者による「オリジナルコンテンツのコピー」により重複コンテンツが生まれることがある。ブログやSNSは手軽にページ生成が可能なため、個人的な記事クリップといった悪意のない目的、あるいはコンテンツ連動広告で金銭を稼ぐことを目的に他サイトのコンテンツを借用してページを作成する場合もあるが、いずれにせよこの場合も重複コンテンツが発生する。このケースでは、コンテンツ盗用者の運営するサイトがもともとのコンテンツ保有者のサイトよりも評価が高い場合、関連するキーワードで検索した際にコンテンツ盗用者のサイトが先に表示されてしまいトラフィックが奪われる場合もある。
ソーシャルブックマーク(SBM)も時として厄介な問題をもたらすこともある。誰かがページ(これをオリジナルページとする)をブックマークすると、SBMは当該ページのタイトルと本文の一部を自動的に引用するが、この時点で全く(ほぼ)同じタイトルを持つページが生成されてしまう。この時、タイトルに含まれる文字列で検索した時にオリジナルページではなくSBMのページが次々と表示されてしまうことがある。
以上、重複コンテンツの存在は検索エンジンへの登録が妨げられるというケースと、それが発展してコンテンツ盗用者にトラフィックを奪われるという問題が発生するケースもある。いずれにしても、Webサイト運営者はこうした問題への対処法も考えなければいけない。
まず第1に、運営サイト内で発生する重複コンテンツは発生しない仕組みを作ることが必要。基本的に1つのコンテンツは1つのURLのみに存在するようにする。システム上、それが回避できない場合はいずれか一方の重複コンテンツをクロール拒否設定することで、クローラが同じコンテンツを巡回しないように設定をする対策が可能である。例えば印刷用とWeb閲覧用のページはユーザのWeb体験上避けられないものであるから、これは印刷用を robots.txtなどでクロール拒否すればいいわけである。METAタグにロボットのクロールを拒否するnofollow、noindex を入れてもいいだろう。ソーシャルブックマーク対策としては、テキストを掲載しない(例 はてなブックマークの場合)措置をとることも1つの解決策だ。
第2にコンテンツ盗用者対策だが、まずは盗用者に対して警告を行い削除要請をすることを試みる。応じられなければ、検索エンジンに対して該当コンテンツをインデックスから削除することを要請することが可能だ。デジタルミレニアム著作権法(DMCA法)に沿って必要な手続きを行うことで、Google もYahoo!も盗用者のコンテンツをインデックスから排除する作業をしてくれる。
発信した情報を検索エンジンという情報流通システムを通じて、それを求めるユーザに円滑に伝達できる環境を構築する(サーチによる、情報流通の最適化)ためにも、検索エンジンにあわせたコンテンツの配置や管理を考えていく必要がある。
※ 2008年1月20日、改良版