ドコモとNTTコム、NTTレゾナントに100億円出資 - iMenu検索機能の高度化に取り組む

株式会社NTTドコモとNTTコミュニケーションズは2008年6月16日、NTTレゾナントに総額約100億円の増資を行うことを発表した。3社は今後、携帯電話とパソコンのシームレスなサービスの開発や、iMenuサイトの検索機能の高度化などに取組むという。NTTレゾナントの資本構成は、NTT Com約66.6%、NTTドコモ約33.4%となる>NTTレゾナントの資本構成は、NTT Com約66.6%、NTTドコモ約33.4%となる。

Google、重複コンテンツ(コピペサイト)の対処方法について解説

米Googleは2008年6月9日、近年SEOの領域で話題として取り上げられる機会が多い、重複コンテンツ(duplicate content)問題についてのGoogleの取組みと解決方法について説明した。公式ブログ(Official Google Webmaster Central Blog)にて、検索品質担当チーム・Sven Naumann氏が解説した。

私は本ブログほかいくつかのコラムで何度も重複コンテンツの問題を取り上げているし、また、この問題と対処方法については米国で開催される各種コンファレンスで何度となく既出の話であるが、ここでは日本のサイト制作者やマーケッター向けに改めて基礎情報をまとめつつ、公式ブログで取り上げられたGoogleの見解やその他検索品質担当チームの意見を紹介していく。


重複コンテンツ(Duplicate Content)とは

重複コンテンツとは、異なるページ(URL)に全く同一のコンテンツが掲載されていることを指す。ここでいう重複とは、グローバルナビやフッターなど、共通して設置される機能パーツを除く、ページのトピック(コンテンツ)にかかわる部分における重複の問題を指して取り上げられる話題だ。

近年、ブログやRSSフィード、ソーシャルサービスの登場により、外部のサイトに自分のコンテンツがそのまま掲載されるケースが増えている。たとえば、出力したRSSフィードをそのまま他のサイトが転載したケース、個人がメモがわりに全文をコピペしたケース、AdSenseなどコンテンツ連動型広告による小遣い稼ぎを目的とした、悪質なコンテンツコピペ、はてなやBuzzurlなどのソーシャルブックマークサービスによる「抜粋」という名目の下に生成されるコンテンツコピー発生ケースが考えられる。また、自分のドメイン内においても、CMS(コンテンツ管理システム)の仕様により、あるコンテンツを複数のカテゴリに所属させた場合にコンテンツが重複したり(Eコマースサイトでよくある)、異なる事業部が独立してウェブを管理し、互いが同じコンテンツを使って公開してしまうという企業のオペレーションの問題を起因として重複が生まれるケースもある。また、ウェブ表示用と印刷用にページを分けている場合も、両者はレイアウトこそ違えど検索エンジンから見れば重複していることになり、ユーザーの利便性を考えたサイト運営の結果が問題を引き起こすこともありうる。


スパムではないが、検索結果から「非表示」に

検索エンジンにとって、内容が同じページを識別し、それを検索結果でコントロールすることはサービス品質を維持する上で重要である。なぜなら、あるキーワードで検索した時に、コンテンツが同じページを多数検索結果に表示することは、ユーザーに提示する選択候補の幅を著しく狭め、検索体験の質の低下を招くためだ。そこで検索エンジンは、重複したコンテンツを同時に検索結果に表示しないようにする、つまり、いくつかのページを非表示にするという対応を取ることになる。

この「非表示にする」ことを理由に、重複コンテンツは検索エンジンスパムだと誤認識している人も多いのだが、Googleはこれを否定。『複数サイトに点在する同一コンテンツが表示されることはウェブマスターガイドラインの違反というわけではない』と説明している。この件についてはGoogleウェブスパムチームの複数の担当者も「重複コンテンツの問題は検索ユーザーの利便性を考えた上での対応であり、検索エンジンスパムという判断ではない」との見解を表明している(ad:tech、04/2007)※。


MFAや不正コピーサイトは基本的に表示されない

検索結果に同一コンテンツを多数表示しないために、Googleはアルゴリズムによりオリジネーター(コンテンツの元の作成者・サイト)を識別し、そのサイトは非表示ではなく検索結果に表示されるように配慮している。これはウェブ上の公開日時だけでなくリンク構造など他の様々な要素を用いて総合的に判断を行っている。したがって、小遣い稼ぎのスクラップコンテンツや個人ブログによるコピペなど、サイト運営者の許諾を得ていない、コピーサイトが検索上位に表示されることは基本的にはない。

もちろん、サイト運営者の許諾を得てシンジケーションしている、たとえば インターネットコム(オリジネーター)とYahoo!ニュース(シンジケーション)、SEMリサーチ(オリジネーター)とlivedoorニュース(シンジケーション)の関係のようにサイト許諾を得ているようなケースは大抵、検索結果にどちらも表示される。当然ながら、検索エンジンは、各々の関係が許諾を得ているか、得ていないかなど知りえないわけだが、結果として(検索ユーザーにとって不利益なものが)表示されないようなアルゴリズムの調整がなされている。

さて、Googleはこうした重複問題について、(1) 重複コンテンツが同一ドメイン内に存在する場合、(2) 重複コンテンツが他のドメインに存在する場合、の2つに分けて対応方法を紹介している。


重複コンテンツが同一ドメインに存在する場合の対処法

前者については、インデックスを望まないページを robots.txtやMETAタグ(noindex) で排除する、という方法を紹介している。印刷用・ウェブ用でページが分かれている、CMSの仕様による重複コンテンツが生成されてしまうケースでは、あらかじめ登録させたくない方のページを特定名称のフォルダにおさめておいてrobots.txt でクロール拒否設定すると簡単に管理できる。たとえば、印刷用ページは全て printer というフォルダに入れておいて、robots.txt で printer はクロールさせなければ解決する。


重複コンテンツが異なるドメインに存在する場合の対処法

後者は、ケースによって対処法が異なるが、実際のところ先述したとおり、許諾を得ていないようなコピペサイトなどはアルゴリズムの処理でそもそも検索上位には表示されないので、トラフィックを奪われるといった実害は実質的に発生しない(もし、コピペされたことを起こるのであれば、それは検索技術の問題ではなく法律の問題なので、コピーサイトに対して警告するなど他の対処をすればいい)。サイト管理者側で特別な対処は基本的には必要としない。RSSフィードを通じて全文配信しているが、重複コンテンツと判断されないかと心配する人は多いが、大抵、上手い具合にフィードを出力しているオリジナルの方が検索上位に表示されているはずである。


コピー・提携先サイトがオリジナルより上位に表示される場合の対処法

なお、シンジケーションサイトが複数存在する場合、オリジネーターのサイトよりもシンジケーションサイトの方が検索上位に表示されてしまうというケースは少なくない。たとえば、オリジネーターのサイトよりもシンジケーション側の(検索エンジンからの)絶対評価※が高い場合がそうだ(「絶対評価」の概念はここでは説明しませんが、わからない人も多いと思うので後日解説(たぶん)。極端な例を挙げると、誰にも知られていない、極めてマイナーなブログのコンテンツがYahoo!に掲載されると、たぶんYahoo!の方が表示されてしまう)。あるいは、BuzzurlのようにSEOに注力しているソーシャルブックマークに本文の一部を引用されてしまうと、オリジネーターよりもソーシャルブックマークの登録ページが検索上位に表示されてしまうこともある。


対処法(1) METAタグやrobots.txtでクロールを拒否する

こうした場合の対処法は、前者についてはGoogleがよく使うアドバイス「オリジナルの方にリンクを返す」ということを行う。つまり、シンジケーションサイトは通常、記事の提供元を明記するはずなので、そこに自分のサイトへのリンクを返してもらうことだ。たとえば、SEMリサーチの記事はlivedoorニュースにも掲載されているが、livedoorニュースからSEMリサーチにリンクが張られている。筆者が所属するアイレップでも同様にインターネットコムに記事を提供しているが、同サイトからアイレップに対してリンクが返されている。このように、提供先サイトが提供元サイトにリンクを張る(この行為はSEO関係なく、通常のビジネス慣習として行われているはず)ことによって、検索エンジンはオリジネーターを識別する時の判断材料として利用する。


対処法(2) 必要に応じて、引用拒否という方法も

後者のソーシャルサービスによる引用については、「引用させない」ようにrobots.txtやMETAタグ を用意する。たとえば「はてな」は引用を望まないサイト運営者向けに、引用拒否用のタグを用意しているので、もし「はてなブックマークの方が上位に表示されて困る」という悩みを持っているサイト運営者は、引用させないという対応をすることだ。Buzzurlはそういうタグはないので注意(ないと思う。FAQページ見たけどそれらしき情報はない。もしあったらご指摘ください→Buzzurl関係者 [UPDATE] と言ったらすぐ対応してくれた!Buzzurl、本文引用拒否するMETAタグ buzzurl noindex 用意)。


言葉の言い換えコピーサイトの対処法

【追記】 コンテンツ不正利用のコピペサイトについて。全く同一のコンテンツをコピペされる限りは検索アルゴリズムで自動的に排除されるが、文言を変えられた場合は別。例えば、私が過去に書いた「重複コンテンツ」の記事について、言葉を「デュプリケートコンテンツ」と言い換えてコピペしている人がいる。このケースでは、検索キーワードによってそちらのコピペサイトが上位に表示されることもある。この問題に対処したい時は、検索エンジンにクレームするのではなくて、そのコピペした人に対して著作権違反を指摘した方が早い。もし、その著作権侵害者に無視され、かつトラフィックが奪われて被害を蒙っているのであれば、デジタルミレニアム著作権法(DMCA)に従って検索エンジンにクレームをすればよい。

※ Googleの発言について補足説明を加える。もし、こうした(同じコンテンツが異なるドメインに存在する)状態をスパムであるとみなすと、News2uやバリュープレスのようなプレスリリース配信サイトの行為が悪いことになってしまう。これら会社は検索やSEOの世界と関係なく、通常の経済活動の一環として行っているのであり、そういった当然発生しうるものは「スパム」とは判断しない。ただし、同じプレスリリースを延々と検索結果に表示することは検索ユーザーにとってメリットがないので、検索エンジン側の判断で表示するページを取捨選択するという話。合理的な理由に基づいて特定のページが検索上位に表示されない状態になっていることと、それをスパムと呼称するかどうかは別の問題。関連として、Yahoo!検索で純粋アフィリエイトサイトが上位に表示されにくいのも、アフィリエイトサイトの存在がスパムなのではなく、そういった情報が検索上位に表示されることが検索の関連性(レレバンシー)という観点において適切なのか?を検討したYahoo!の決断の結果。

Duplicate content due to scrapers [Google Webmaster Central Blog]
http://googlewebmastercentral.blogspot.com/2008/06/duplicate-content-due-to-scrapers.html


#
この問題はよく質問されるのですが、対処方法がほとんど検索エンジン側から情報開示されているので、それをサイト制作に携わる人が読んで勉強した方がいい

Google、関連検索の生成アルゴリズム改善 - 時事ネタに対応

米Googleは2008年6月12日、関連検索(related search)の生成アルゴリズムを改良し、より現在の話題に即した検索キーワードの提案が行えるようになったことを明らかにした。Googleグループプロダクトマネジャー・Rajat Mukherjeeとソフトウェアエンジニア・Adam Westallの両氏がGoogle公式ブログで明らかにした。

関連検索とは、ユーザーの情報検索を支援するためにキーワードの提案を行う機能。ウェブ検索(自然検索)の画面上部と下部に表示される。Googleを利用するあらゆるユーザーが、自分が探し求める情報にたどり着くための適切なキーワードを知っているわけではないため、関連検索を通じて、入力されたクエリと同時に出現するクエリを表示することで検索の利便性を高めている。

関連検索に類似する機能はYahoo!JAPANも提供しているが、Yahoo!のそれはクエリベースでユーザーの実際の検索回数などに基づいて日々更新されているのに対し、Googleのそれはウェブベース(複数のデータソースを参照して決定しているということだが、基本的にクロールベース)であり更新タームが長かったために、時事キーワードなど今日の興味・関心に即した適切なキーワードが提案できているわけではなかった。

今回、この関連語句を生成するアルゴリズムを改良し、新しい話題についての語句をより早く表示できるようになったことで、ユーザーの今日の話題に対応したとしている。Googleはその例として、たとえば3G対応機器が登場して話題となったiPhoneについて、すでに関連するキーワードが表示できているケースを挙げている。

今回の関連語句生成アルゴリズムは米国(英語)でのみ対応しているが、今後、他の言語にも対応させていくとしている。

ちなみに、Yahoo!JAPANも先週、関連検索ワードの生成アルゴリズムを更新したことを発表している。

Fresher related search suggestions [Official Google Blog]
http://googleblog.blogspot.com/2008/06/fresher-related-search-suggestions.html

おすすめ:最近のニュース記事

スマートフォン向けサイトを検索エンジンに最適化するためのポイント


GoogleがスマートフォンUAを持つクローラを公式に発表したことで関心を持つ方も増えてきたようです。ここで、スマートフォン端末に最適化したウェブサイトの扱い方について、よく受ける質問について簡単に回答を記しておきます。適当なタイトルが思い浮かばなかったのですが、最適化というか、検索エンジンにどう認識させるかという話だと思ってください。これは広義でいえば「スマートフォンSEO」なのかも知れませんが、どちらかというとデバイス向けを横断した、サイト全体のSEOだと私は思います。


米Yahoo!、Search BOSSを刷新、3つの検索ソリューションを発表


米Yahoo!は2011年12月7日、Search BOSS(Build Your Own Search Service)の新しいウェブサイトを公開すると同時に、3つの検索ソリューション - BOSS Hosted Search, BOSS Site Search, BOSS Shortcutsを発表した。BOSS Hosted Search 及び BOSS Site Search は同日よりグローバルで提供を開始、BOSS Shortcutsは米国、カナダ、インド、英国での提供となる。


米Google、ウェブ検索にフライト検索情報を統合


米Googleは2011年12月1日、航空便スケジュール情報をウェブ検索結果内に表示する機能を追加したと発表した。


Xboxアップデート、BingとKinectを融合した音声検索に対応


米Microsoftが2011年12月6日、Xbox Live 及び Xbox 360 のアップデートを実施する。このアップデート適用後、ユーザーはコントローラーフリーなKinectとBing検索技術を融合した、新機能が利用可能となる。


米Google、ページレイアウト分析アルゴリズムを改善 [詳細版]


米Googleは2012年1月19日、ウェブページのレイアウトやコンテンツボリュームを分析するアルゴリズムに変更を加えたことを明らかにした。同社Matt Cutts氏(Distinguished Engineer)は、検索利用者がより高品質なウェブサイトを発見できるようにするための改善策の1つだと述べている。


ご挨拶:2012年もよろしくお願いします


あけましておめでとうございます。2012年もSEMリサーチをどうぞよろしくお願いします。

以下、お知らせです。

  • 更新開始(再開)は1月中旬を予定しております。もうしばらくお待ちください。
  • 本年より運営・編集方針を若干変更します。変更するというよりも、昔のスタイルに戻す予定です。具体的には、海外関連の記事数を大幅に増やす一方で、国内関連を若干減らします。
  • SEMリサーチは2011年8月で運営9年目を迎えました。ここ2年ほどは更新が若干不定期となっておりますが、当面は運営していきますので皆様今後ともよろしくお願いします。少なくとも2013年8月まではがんばります。
  • mixiページで開設していたSEMリサーチのページを閉鎖しました。Facebookページは引き続き運営して参ります(Google+ページは開設済みですが運営未定)。SEMリサーチの記事をフィードで配信するだけでは面白味がありませんので、Facebookの方は何かコンテンツを追加する予定です。
  • 年内のどこかのタイミングで、SEMリサーチで公開する一部記事の言語を英語に変更する予定です。(従来の日本語記事を残したまま)英文記事を追加するのか、日本語記事を減らして対応するか等、詳細はまだ決定しておりません。

英語化について:会社(アイレップ)がグローバル展開を強化していることもありますが、私個人としても海外のカンファレンスにスピーカーとして登壇する等、海外に目を向けた取り組みを強化していきたいという意向があります。


米Google、パンダ・アップデート 3.2を実施


米WebmasterWorldなどのフォーラムで数日前からGoogleが通称パンダ・アップデートの更新をしているのではないかとの憶測が流れていたが、Googleが1週間前にアルゴリズム更新を実施したことが確認された。SearchEngineLandが報じている。














Ask.jp, Ask.com | Bing (Live Search) | Google 05-1 | Google 05-2 | Google 06 | Google 07 | Google 08 | Google 09 | Google 2010 - 2011 | SEO(検索エンジン最適化) | SES | Yahoo!検索 / YST | アクセス解析 / Web分析 | コンテクスト広告 | サイト内検索 | サーチニュース 07H1 | サーチニュース 07H2 | サーチニュース 08H1 | サーチニュース 09 | サーチニュース 2010 | サーチニュース 2011 | ショッピング検索 | デスクトップ検索 | ニュース 05Q2 | ニュース 05Q3 | ニュース 05Q4 | ニュース 06H1 | ニュース 06H2 | モバイル検索 / 携帯検索 | リスティング広告 | ローカル検索 | 動画検索 | 旅行検索 | 検索イベント |

検索市場分析 | コンテンツターゲティング広告 | ポータル / ディレクトリ | Google 2003 | Google 2004 [I] | Google 2004 [II] | Google 2005 [I] | AdSense / アドセンス | AdWords / アドワーズ広告 | Froogle / フルーグル | ローカル検索 | モバイル検索 | MSNサーチ | Overture / オーバーチュア | PFI - ペイドインクルージョン | ショッピング検索 | ペイドリスティング(PPC) | 検索エンジンニュース 2004 [I] | 検索エンジンニュース - 2003 | 検索エンジンニュース 2004 [II] | 検索エンジンマーケティング SEM | SEO - 検索エンジン最適化 | SEM/SEOセミナー | サーチエンジンストラテジーズカンファレンス(SES) | 検索エンジンニュース 05Q1 | 検索エンジンニュース 05Q2 | SEO / 検索 統計 | Yahoo! / ヤフー | P4P |

関連SEMサイト - SEMリサーチ | SEO - FAQ | SEO(検索エンジン最適化) | キーワードアドバイスツールプロ

検索にガンガンヒットさせるSEOの教科書 付録 |
運営者 - 『検索にガンガンヒットするホームページの作り方』