SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

グーグル、クロスドメインURLの選択時にウェブマスターに通知する機能を追加 透明性高める目的

グーグルは2011年11月16日、クロスドメインURL選択時の透明性を高める目的で、ウェブマスターが希望しないURLがグーグルに選択された場合にメッセージで通知する機能を追加した。

この話を理解するには、検索エンジンにおける重複コンテンツの問題と、Googleがそれにどう対応しているのかについて理解する必要がある。

インターネット上には、同じコンテンツが異なる複数のURL(ドメインの違いを問わず)に展開されることが少なくない。この状況のことを重複コンテンツと呼ぶが、こうした状況は比較的発生しやすい。

代表例がコンテンツ・シンジケーション(他サイトへのコンテンツ配信)だ。たとえばCNET Japan やYOMIURI ONLINE が Yahoo! JAPAN にもニュース記事を配信しているが、これも異なるURL(CNET / YOMIURI と Yahoo! JAPAN のドメイン)で重複している。OKWaveのQ&Aネットワークも然りで、同じQAセットが多数の提携先ネットワークに流れている。一般企業でもこうした事態は発生しがちで、例えば企業がプレスリリース配信サイトを通じてリリースを出した場合も、同じリリース文が複数のサイトに掲載されることになるため重複となる。自社が運営する複数のメディアに同じ記事を掲載しても、当然ながらそれは重複コンテンツとなる。

また、提携数の多さを謳う有料審査型のディレクトリ登録サイトも、同じコンテンツ(ディレクトリ)を多数のサイトに掲載していることから、シンジケーションそのものをビジネスとして成立させていることになるが、こうした企業と提携してしまうと、自社内に大規模な重複コンテンツ群を抱えてしまうことになる。

さて、検索エンジンは、便利な検索サービスを継続提供していくためにこうした重複コンテンツを上手に処理していく必要がある。単純に検索キーワードに合致するページをそのまま表示したら、URLは異なるがコンテンツが同一であるページが検索結果を占拠してしまうためだ。そこでGoogleは、コンテンツが重複しているページ群(グループ)を発見した場合、アルゴリズムに従って代表するURLを1つ選択し、それ以外のURLは検索結果に表示しないという処理を行っている。

例えば、ある同一のコンテンツページが、ドメイン a.com、b.com、c.com、d.com の4ドメイン上に存在したとしよう。この場合、Googleは代表性の高い1つのURLをアルゴリズムで判断・決定する(これを"クロスドメインURLの選択"と呼ぶ)。もし c.com 上のページが代表URLと判断された場合、他のドメイン a, b, d 上のページは検索結果で表示されない。ちなみに代表制の判断は、主にサイト全体の重要度や人気度、ページの発行日時、ソーシャルサイトでの言及数など複数の要素で決定される。

グーグルはアルゴリズムで、できる限りウェブマスターが希望するであろうURLを代表と選択するように努めているが、必ずしも希望通りになるわけではない。rel=canonical(カノニカル)や301リダイレクト設定を適切に行うことでGoogleに対し実質的な「命令」を発することで正しいURL選択を伝えることもできるが、その「命令」が発行できないクロスドメインURLの選択時には、意図に沿わない結果が出ることもある。

今回の発表は、このクロスドメイン(複数ドメインにまたがる)重複コンテンツ処理において、ウェブマスターツールに登録したURLではない、外部(ドメインの)URLが選択された場合に、ウェブマスターに通知する、という機能である。ウェブマスターはこの通知を受け取った場合に、どのコンテンツが、どのドメイン(URL)でGoogleに登録されているのかの状況確認を行った上で、対応を検討することができる。

クロスドメイン URL の選択 - 複数のドメイン間の重複コンテンツの正規化について

http://googlewebmastercentral-ja.blogspot.com/2011/11/url.html

グーグルは今回の発表にあわせて、公式ブログで意図と異なるクロスドメインURLの選択が行われる原因と、その修正方法を紹介しているのであわせて上記記事をご覧頂きたいが、1点、グーグルの説明が正しくない部分があるので指摘しておく。

また、まれにではありますが、あなたのコンテンツをあなたから許諾を得ることなく使用している外部サイトの URL が選択されることがあります。著作権に違反して、他のサイトにコンテンツを複製された場合、そのサイトのホストに連絡を取って削除を依頼してください。また、DMCA (デジタル ミレニアム著作権法) に基づく要求を提出する ことで、権利を侵害しているページを検索結果から除外するよう Google にリクエストすることもできます。

グーグルは著作権侵害サイトがクロスドメインURLで選択された場合に、(a) 著作権に違反しているサイトに連絡をする、(b) DMCAに基づく要求をGoogleに提出する、の2つを紹介しているが、これは「いずれか」で十分というわけではなく、まず (a) を行って事態が改善しない場合に (b) の手続きをすることが正しいようだ。

私が把握する限り、少なくとも2003年~2008年においては、(a) の手続きを行わなくとも、(b) のDMCAによる申し立てにより問題のページを検索結果から削除できることを複数の事例で確認している。しかし、2011年3月時点においては、(a) の手続きを行わずに (b) を行っても、Googleから「ご連絡いただいた以下のページがお客様の著作権を侵害していると考えられる場合は、まず、問題となっているページの管理者およびホスト先へご連絡いただけますようお願いいたします。」という連絡が来て、まず (a) の手続きを促されるためだ。

ちなみにグーグルは「米Google、著作権保護方針の強化を発表、Widevineの買収も」という記事で紹介しているように2010年12月に、著作権侵害報告の対応を強化したことを発表しているが、確かに迅速に処理がおこなわれるようになったことも確認している。私が実際に試した案件(2011年)は、Googleの回答が6日。参考までに、同案件でサイバーエージェント社のアメーバカスタマーサービスに問い合わせをした際には(再三催促した上で)返答まで30日を要した(2011年1月時点)。私としては、サイバーエージェントのアメーバ事務局に申し立てをする(30日+)よりも、グーグルに申し立てをして検索結果から削除してもらう(6日+)方が事務作業的にも時間的にも効率的なので (b) を選択したのだが。

cf.

SEO:シンジケーションネットワークと外部リンク効果の関係 (2011/03)

Google、重複コンテンツ(コピペサイト)の対処方法について解説 (2008/06)

#

以下、ある程度知識がある人向け。

グーグルはクロスドメインURL選択時に「代表するURLを1つ選択」と説明しているが、全てのケースで選択されるURLが1つというわけではない。たとえば、当サイト(www.sem-r.com)はASCII.jp にも全文コンテンツ提供を行っているが、両ドメインは検索結果に同時に表示される。同様に、教えて!goo、MSN相談箱、OKWave、BIGLOBEなんでも相談などの「OKWaveネットワーク」も、異なるドメインに展開される重複コンテンツが検索結果に表示されることは日常茶飯事だ(だからそれを嫌がるユーザーもいる)。

こうした事象が発生するのは、主に次の2つの理由による。第1に、サイトの全体的な重要度も評価シグナルの1つとなっており、一定以上の人気度を持つサイトは重複表示されてしまう。第2に、検索クエリと合致するウェブページが十分に存在しない場合も、その重複したコンテンツ(も含めて)検索結果に表示する仕様となっているためだ。

もっともグーグルはこのルールに起因する、検索品質低下の問題解消に取り組んでいる模様だ。たとえば日本国内でも確認できる例をとると、プレスリリースの重複性は以前と比較すれば大分「マシ」なレベルになってきている。OKWaveネットワークも同様で、教えて!gooやOKWave本体、MSN相談箱レベルはまだしも、それ以下のクラスのサイトの出現率は、(少なくとも私が常時監視用に用いているキーワード50個では)かなり減少している。

同様に、最近増えているSEOのリンク効果をうたった有料審査型ディレクトリサイトも、特に弱小ディレクトリネットワークは重複扱いとして全体の30-70%はインデックスから削除されている。また、最近のパンダ・アップデートによるコンテンツ品質評価の改革により、こうした「実質、低品質な」ディレクトリコンテンツを内部に抱え込むこと自体がリスク要因と認識しなければならない時代になっていることも留意されたい。

--

SEOにおけるコンテンツ重複問題というのは非常に複雑でややこしい。重複コンテンツというのは、その存在自体が問題ではなく、Googleによる処理によって問題の有無やその影響が決まってしまうためだ。つまり、全く同様の行為を行っても、それがウェブマスターにとって何の障害とならない場合と、何らかのアクションをとらなければいけない場合があるということだ。

対処方法として、まず大枠の考え方を理解する。具体的には、重複コンテンツ問題の発生リスクは、IA(情報アーキテクチャ)上の理由により発生するものと、ビジネススキーム上の問題により発生するものの2つがあることを理解する。

前者は、例えばECサイトにおいて、同一商品紹介ページが複数URLに展開されたり、カテゴリ・商品一覧ページで類似性が極めて高いものが自動生成されてしまうようなもの、あるいはテンプレート的に小さな違いがあるが同コンテンツが差し込まれるようなケースをさす。これは自分たちの努力で排除する。上っ面だけでSEOわかってます的なサイト制作会社に依存するのはやめて、自分で正しく勉強するか、外部から詳しい人間を捕まえてきてサイト設計段階で排除するのが一番。

後者は、社内の他事業部や外部のメディアにコンテンツ供給をするケースなどが考えられる。これはケースバイケースになり詳細は後日触れたいと思うが、とりあえずコンテンツを他に供給する際には検索エンジンの存在を意識して、どういう形式にするかをきちんと決めるべき。たとえば私は livedoor にもコンテンツ供給しているが、livedoorには第1段落しか渡していない。

もっとも、大抵の企業は前者の問題で躓いていることが多いことを認識すべし。

COPYRIGHT © 1997-2021 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

お問い合わせ(お仕事の相談、講演依頼など)

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。