大元さん(ASSIOMA)の記事で話題になっている、寄稿記事(全文転載)をした時に Google の検索結果で表示されなくなる問題について。これに関連するウェブの記事やTwitterなどをあれこれ見ていると、ちょっと誤解や間違った情報も多いので、この領域の専門家として簡単にポイントをまとめておきます。大元さんの記事で総論正しいのですが、少し訂正しつつ、技術的な観点も加えて話を整理してみます。
この話題は、「重複コンテンツ」(duplicate content)問題といいまして、技術的にも難易度が高く、またケースバイケースで解決方法も異なるという、非常に厄介です。SEOを専門としていない人にはわからなくて当然の内容なのですが、多くのブロガーが遭遇しうる問題なところがまた面倒なところです。
以前、新しい書籍の執筆をしていた時に(ただいま中断中)、重複コンテンツというチャプターを設け、そこに想定しうるケースを全てリストアップして、対処方法を詳細に書こうと思ったことがありました。しかし、想定されるケースで(3年前の時点で)30以上、今日はスマートデバイス対応サイトが登場したことで、重複コンテンツ問題が発生しうるケースは増えているに違いありません。
つまり重複コンテンツというのは、個人がオンラインで情報発信の活動をしていたり、あるいは企業が通常のウェブマーケティングを展開していると、必ず遭遇するであろう厄介な問題なのです。しかし検索トラフィックを確保・維持するためには何らかの解決策を講じなければなりませんので、1つ1つ、解決方法を学びつつ、問題を潰していくことが肝要です。
話を本題に戻します。今回は、『「個人ブロガー」が、他のメディアに記事を寄稿する場合』に話を絞って解説します。
※ 後半で紹介する解決策は、a) Googleに確認済み、b) 現場で実証済み、c) 世界中の多くのSEOエキスパートが一般的に推奨している事柄、のいずれかに該当します。大抵の問題は解決できるはずですので参考にしてみてください
検索結果の多様性(diversity)
検索エンジンは、クエリに対する検索結果を表示する時に、できるだけ多様な情報ソースを検索結果に含めるようにしています。検索利用者に対して、ある事柄(インテント)に対して、様々な角度・意見・情報源を表示することで、比較検討や意思決定を促すことができるからです。これを検索結果の多様性(diversity)といいます。
この多様性を保持するために、検索エンジンは、1つの検索結果内に、同一内容のページへのリンクを含めないようにしています。なぜなら、もしも検索結果のリンク先がすべて同一内容のページであれば、検索サービスの利便性が大きく損なわれるからです。クリックするたびに表示される内容が同一であれば、検索利用者はがっかりするでしょう。
したがって Google は、検索クエリに合致する、同一内容のページを複数発見した場合、その中から(原則)1件のページだけを取り出して検索結果に表示して、その他のページは非表示とします。
検索結果の関連性(レリバンシー)を保つために非表示という処理をしています。これは、いわゆるペナルティなどというGoogleからの罰則ではなく、単純に検索利用者のための措置です。また、本件について Googleアルゴリズムの不備などと指摘をされる方もいますが、ここまで説明してきた通り、検索利用者に対する配慮であり、サービスとして不備があるわけではありません(一方で、情報発信側としては不満であり、それを不備と指摘したい気持ちは理解できます)。
重複コンテンツは、必ず非表示とされるわけではない
『ある検索クエリに合致する、同一内容のページが複数発見された場合は、その中から最も適切な、オリジナルであろう1件のページを検索結果に表示する』ことが原則です。しかし例外もあります。
この例外が合致するかどうかは、サイトの絶対評価≒PageRankの実数値、あるいは オーソリティーと関係があります。
1つ1つのページが、インターネット全体においてどれだけの重要度・信頼度があるか計算( query independent ranking )されています。SEOの専門でない方もいらっしゃいますと思いますので、要は PageRank の値だと考えてください。ただし、Googleツールバー等で確認できる10段階の値のことではなく、私たちが知りえない、Googleシステム内部で保持する、実数値としてのPageRank です。
個人ブロガーが、自分自身のブログだけでなく、大手メディアに全文寄稿・転載した場合、自分のサイトのGoogleからの評価と、寄稿先サイトの同評価の関係によって、検索結果の表示方法がおおよそ決定されます。
以下、「一定以上の評価」という非常に曖昧な表現をしていますが、明確な閾値は不明です。誰でも判断できる目安でいうと、GoogleツールバーのPageRank で 4以上、または、長年、日々欠かさず更新してきているようなサイトでしょうか。
Google は重複コンテンツをどう処理しているか
まずGoogleの基本的な処理の手続きを理解するために、典型的な3つのパターンを想定して、それぞれ Google がどのような対応を行うか紹介します(例外や派生型もあり、※ の部分を参照)。
- 自分のサイトの評価は十分でなく、寄稿先サイトは一定以上の評価を得ている場合
このケースでは、寄稿先サイトは検索結果に表示されますが、自分のサイトは表示されません。本件で一般的に発生する問題がこのケース。よほどある分野や領域で著名な人でなければ、個人運営のブログ等がそれほど高い評価を受けることはありません。一方で、こうした人が寄稿したいと思う時は、寄稿先サイトがとても有名でユーザーを抱えているからでしょう。それ故に、寄稿を開始したら「俺のブログが検索結果に表示されなくなった!」という問題が発生するわけです。一昔前に、AMNのネットワークで、Yahoo!JAPAN やライブドアに記事配信した時に、一部のブロガーの方が検索結果に表示されなくて困っていましたよね。
- 自分のサイトの評価も、寄稿先サイトも一定以上の評価を得ている場合
自分のサイトも、寄稿先サイトもどちらもGoogleから一定以上の評価を得ている場合、どちらも検索結果に表示されます。たとえば、私のこのサイトはアスキーさんやライブドアさんにも配信していますが、3サイトともに検索結果に表示されます。また、japan.internet.com や読売新聞、毎日新聞など大手メディアはそれぞれ、Yahoo! JAPAN やその他様々なところに記事配信を行っていますが、一定以上の評価を得ているサイトであれば、並列して表示されます。比較的有名な事例としては、Q&Aサービスの「OKWave」とそのネットワークがあります。時折、「検索結果に OKWave のしょうもないQAページばかりがヒットする」ということが話題になったりすることを覚えている人もいるでしょう。本来は重複コンテンツとして非表示にされるべきなのですが、「教えて!goo」「MSN相談箱」「OKWave」・・・と巨大サイトが提携パートナーに入っているために、非表示とはならないのです。
- 自分のサイトの評価も、寄稿先サイトも十分な評価を得ていない場合
このケースでは、相対的に評価が高い方のページが検索結果に表示されます。
※ 上記は典型的なパターンとしてわかりやすく示していますが、実際には「キーワードによっては自分のサイトが表示されることもあるが(自分のサイトの方が順位が遥かに上)、大抵は寄稿先サイト」といった状況になることもあります。自分のサイトと寄稿先サイトの更新性やサイト規模、信頼度など様々な要因により、自分のサイトが表示される割合(より上位に表示される割合)と、寄稿先サイトが表示される割合は変化します(たとえば、ある記事が自分のサイトに掲載した方のURLで多くの自然リンクを集めた、等)。この比率が 10:0 ~ 8:2 であれば、寄稿先サイトと自分のサイトの評価が大きくかい離しており、前者が強すぎるということです。逆に 6:4 ~ 5:5 程度であれば、少しの工夫で簡単に問題が解決できます。
※ 本来はどちらのサイトも検索結果に表示されるに足る十分な評価を得ているにもかかわらず、一方が非表示になる場合もあります。これもまた原因は様々考えられるのですが、大手ニュースサイトでありがちなのは、サイトのアーキテクチャ上の問題。個々のニュース記事が適正に評価されないために、結果的に他の重複ページと競合の末、非表示となる場合もあります。
さて。Googleが表示・非表示を判断する、その閾値あるいは一定以上の評価とは如何ほどなのかについては、残念ながら判明していません。ただ、大手のメディアというのは大抵、数多くのレピュテーション(リンク資産)を得ているので、おおよそ問題なく検索結果に表示されます。ただし、一昔前に CNET Japan が読売オンラインに記事を配信した時に、前者が非表示となり後者が表示となるといった具合に、大手メディア同士でもいずれかが非表示になる場合もあります。
最もオリジナルで、信頼が高いサイトが優先表示
Googleの方針としては、一番最初にその記事を発信したサイト(オリジネイター)を表示する、あるいは最も重要度が高いサイトに掲載されているページを表示するように努めています。ですから原則としては重複したものの中から1件だけを表示します。ただし、甲乙つけがたいくらいにそれぞれ信頼度が高いと判定された場合は、重複して検索結果に表示がされます。
さて、こうした Google (その他の検索エンジン含めて)の検索に対する考え方を踏まえて、どう対処したらいいかを考えてみましょう。以下、いくつかの案を列挙しますが、自分で出来ることを複数組み合わせてチャレンジしてみてください。1つだけだと上手くいかないかもしれませんが、組み合わせで対応すれば多くの問題は解決できるはずです。
解決策 1:自分のサイトの評価を高める
解決方法ですが、まず自分が運営するサイトの評価を十分に高めること。つまり、自分のサイトをもっと人気のあるものにして、TwitterやFacebookでシェアされたり、他のサイトからよく参照リンクが張られるような存在にすることです。
…と書きましたが、そんなこと簡単にできれば苦労しませんよね。ということで次。
解決策 2:寄稿先サイトから、自分のサイトにリンクを返してもらう
これは Google がよくアドバイスする事柄ですが、寄稿先サイトから、自分のページ(寄稿した内容と同一のものが掲載された、オリジナルのページ)へリンクを都度返してもらうことです。この方法で、ある程度は問題が解消されるはずです。
寄稿先から、自分(=オリジネイター)にリンクを返すことで、 Google はそのリンク先がオリジナルと判定するためのヒントにします。リンクの返し先は、個々のページではなく、サイトトップで問題ありません。
ちなみに大元さんの記事で触れられている"original-source" ですが…
original-source、canonicalタグを付ける前回のブログのコメントで頂いたご意見に「canonical」タグを付与すれば良いのでは無いか?との意見があった。また、コグレさんはoriginal-sourceタグを付与すれば良いのでは無いか?とブログに書かれていた。しかし、これは効果が無いように思う。この二つはどちらも「私がオリジナルコンテンツだ」と宣言するタグだが、前述したようにグーグルの検索アルゴリズムはオリジナルコンテンツかどうかも評価対象にするが、それよりも信頼性の高い有益なサイトかどうかを評価するようだ。[全文転載メディアに対する対策を考えた。]
1点目、original-source はGoogleニュース検索用のタグであって、通常ウェブ検索用のものではありませんので、本事象は解決できません。([UPDATE] original-source は廃止されていました鈴木謙一さん指摘ありがとう)。
しかし、これは効果が無いように思う。...(中略)...前述したようにグーグルの検索アルゴリズムはオリジナルコンテンツかどうかも評価対象にするが、それよりも信頼性の高い有益なサイトかどうかを評価するようだ。 従って幾ら「私がオリジナルだ」と言っても、転載サイトより高評価を得てないと上位表示されることは難しいだろう。
ここは少し違いまして、『幾ら「私がオリジナルだ」と言っても、転載サイトより高評価を得てないと上位表示されることは難しい』と大元さんが危惧されている、まさにそのことを解決するための手段として canonical があります。従って、。仮に寄稿先の総合的な評価が高くても、canonical を適切に記述すれば(評価が低い方の)オリジナルだと主張するサイトの方が検索結果に表示されるようになります(一部例外あり)。
もっとも、寄稿先サイトである BLOGOS が 個人サイトを canonical URL と指定して BLOGOS が検索結果非表示になりますと、BLOGOS にトラフィックが集まらなくなります。従って、ビジネス的な理由で全面的な導入はできないでしょう。ただ、執筆者各人が、canonical 記述の有無を選択できるようにする、というアプローチはありかもしれません。ある程度、人気のある個人サイトを運営している人は canonical を選択せずとも、寄稿先と自分のサイト両方を検索結果に共存させることができます。
解決策 3:PubSubHubbub や Ping を利用してGoogleに更新通知する
PubSubHubbub や Ping を使って、Google に最速で新しいページの存在を伝達することで、オリジナルページとして判定してもらう機会を作るというアプローチもあります。RSSを吐き出して他のRSSアグリゲーションサイトに最速で吐き出すというやり方もあり。とにかく、自分のサイトを一番最初に Google に認識させるというのも有効な方法です。Ping は Google に送信して下さい。 blogsearch.google.com/ping/RPC2
これを発展させて、たとえば寄稿先に記事を掲載するのは、自分のサイトに掲載してから10分後、といった具合に時間差をつけることも有効です。
PubSubHubbub なんて使えないという方は、自分の Google+ または Google+ページに、新しい記事を投稿してリンクを共有して下さい。これも Google に真っ先にページの存在を通知する方法の1つです。
解決策 4:寄稿先と自分のところで掲載内容を一部変更する
掲載内容を変えるというのは、微妙な言い回しや表現を変えろということではなく、違うバージョンの記事を掲載する方法です。「全文転載時」の解決策ではありませんが、こういうやり方もあるということで。
たとえば、寄稿先メディアのオーディエンスと、自分のサイトのオーディエンスの違いを考慮して、いずれか一方に補足・追加説明を加える、画像や図版点数を変えるなどの方法です。
※ 単に言い回しだけを変更する、一方は英語表記、もう一方はカタカナ表記と言った小手先の変更を加えると訪問者に嫌がられますし Google も嫌いますのでやめて下さい
この方法を採用した場合は、自分・寄稿先いずれのサイトも検索結果に共存されますが、いずれか一方は検索結果の2ページ目以降になるかもしれません。その追加したコンテンツの価値によって決定されます。
解決策 5:寄稿先には、ダイジェスト版を掲載する
寄稿先には、本文の一部(最初の3段落くらい)を配信して、続きは自分のサイトで読んでもらうようにリンクを張るという方法。これはよく行われています。「続きを読む」という形で自分のサイトに向けてリンクを張れるので、解決策 2 で提示したことも実現できます。
ただし、この方法は何のために寄稿しているのかよくわからないという側面もあります…。
解決策 6:コメント欄を設置して、読者と積極的にコミュニケーションをとる
自分のサイトの書く記事にコメント欄を設置して、そこに訪問者がコメントを残せるようにする、書き手は適宜それに対して返信するといった具合に、コミュニケーションの場を設けるというアプローチ。これはコメントそのものがGoogleのクロール対象になることが前提ですが、このように「自分のところに付加価値(=コメント)をつける」ことでも、Googleはコメント欄が充実している方を先に上位に表示するようになります。
寄稿先・自分のところ両方にコメント欄がある場合は、(いずれかをスルーするわけにもいかないので)有効ではないかもしれません。
※ この方法は、eコマースサイト向き。同一商品を扱う限り、商品説明文などの基本情報がどのショップサイトでも同じになりがちなので、レビューや質問欄などのコミュニケーションの場を設けて付加情報が蓄積されるようにして、差別化する、検索結果に表示されるようにするという解決法です。
解決策 7:自分のサイトを Googleニュース検索のインデックスに含めてもらう
英語圏なら個人・法人含めて解決策になるのが Googleニュースの検索インデックスに含めてもらうことです。ニュース検索枠に表示されるようになるので、非表示扱いはされません。
日本でも、複数人で運営されているブログなどでしたら、こういうアプローチもあるということで紹介しておきます(個人運営のサイトは掲載不可のため、複数人のエディターがいることが要件となります)。
解決策にならない解決策
まず、Googleヘルプにも掲載されている noindex タグは、確かに解決するかもしれませんが、それを張りつけたサイトが不利益を被るので問題は解決しません。一定期間経過後に記事を削除することは、「ウェブサイトにデジタル資産を蓄積する」というSEOにおける王道で本質的なゴールを達成できなくなるので却下です。
あとは、寄稿先には、寄稿用のオリジナル記事を書くことでしょうか。つまり自分のところと同じ記事は掲載しない。これも全文転載時の解決策ではありませんが、海外だとこういう方針でやられているブロガーの方もいらっしゃいますので、アイデアとして共有します。
あくまでも推測なのだが、ひょっとすると今の検索アルゴリズムは、「評判」も考慮に入れてるのかもしれない。記事の評判が「ネガティブ」なのか「ポジティブ」なのかという点だ。
記事の「評判」は全然関係ありません。そこまで Google は賢くありません。炎上でリンクやシェアが集まって、それがネガティブなものであっても、そちらの方が検索上位に表示されます。※ レビューのポジティブ&ネガティブ判定はあるのですが、ウェブ検索、とりわけリンク分析においてはまだ行われていないというのが大方の見方。
おまけ
今回は寄稿を想定していますが、たとえばソーシャルブックマークに登録された時に一部抜粋をするタイプのサービスの場合、やはり重複コンテンツと判断されて、はてなブックマークの登録ページの方は表示されるけれども自分のブログは表示されないといったことが起こりえます。この場合は抜粋させないようにタグを埋め込めば解決します。こんな具合に、寄稿じゃなくても自分のコンテンツが他に掲載されることはあるので、検索エンジンに適切に掲載され続けたいのであれば、とりあえず「Googleに早くクロールさせる」ことを頭にいれておくとよいでしょう。
#
何の為に寄稿したいの?という大前提をはっきりさせた上で考えることは言うまでもありません。ここでは技術的な観点から、一般的な問題の原因と解消法についてまとめました。
前半で、サイトの力関係による3パターンを記載していますが、現実には数多くの派生・例外があります。実務的には、個々の事象を分析して、原因を個別に潰していくことになります。
# 当事者の方より「俺の状況は~だった、間違ってる」と状況についての補足説明を頂きましたので、それを反映させて頂きました。
あえて補足すると、はたから見てるのと実際にblogosのSEOと闘った人間からすると、先に紹介した記事の解説間違ってますよ。必ずしもblogosが勝ってた訳ではなく、特定のジャンルでは私のサイトが勝ってました。ここら辺の体感値が抜けてますね。ヒントはSEOに対するブランディング
— 大元隆志さん (@takashi_ohmoto) 1月 11, 2013
著名な個人や企業サイトならまだしも、一般個人の方のサイトの掲載状況をくまなく定点観測しているわけではありません。とりわけ私は当事者でもなければ、ましてや面識のない方のサイトでの事の始まりから終わりまで事細かに観察しているはずもなく、詳細状況をお伺いしない限り、ピンポイントな状況分析やアドバイスが難しい旨、ご理解下さい。現時点で当該BLOGOS記事が削除されているために事実確認を行えない部分もあり、補足説明を加えたとはいえ一般論に留めさせて頂いております。私は Twitter などのコメントで的外れな指摘が少なくなかった事を踏まえて本稿を書いており、当事者を貶したり馬鹿にする意図があって書いたわけではありませんので、気を悪くされたのでしたら申し訳ない。