ドコモとNTTコム、NTTレゾナントに100億円出資 - iMenu検索機能の高度化に取り組む

株式会社NTTドコモとNTTコミュニケーションズは2008年6月16日、NTTレゾナントに総額約100億円の増資を行うことを発表した。3社は今後、携帯電話とパソコンのシームレスなサービスの開発や、iMenuサイトの検索機能の高度化などに取組むという。NTTレゾナントの資本構成は、NTT Com約66.6%、NTTドコモ約33.4%となる>NTTレゾナントの資本構成は、NTT Com約66.6%、NTTドコモ約33.4%となる。

Google、重複コンテンツ(コピペサイト)の対処方法について解説

米Googleは2008年6月9日、近年SEOの領域で話題として取り上げられる機会が多い、重複コンテンツ(duplicate content)問題についてのGoogleの取組みと解決方法について説明した。公式ブログ(Official Google Webmaster Central Blog)にて、検索品質担当チーム・Sven Naumann氏が解説した。

私は本ブログほかいくつかのコラムで何度も重複コンテンツの問題を取り上げているし、また、この問題と対処方法については米国で開催される各種コンファレンスで何度となく既出の話であるが、ここでは日本のサイト制作者やマーケッター向けに改めて基礎情報をまとめつつ、公式ブログで取り上げられたGoogleの見解やその他検索品質担当チームの意見を紹介していく。


重複コンテンツ(Duplicate Content)とは

重複コンテンツとは、異なるページ(URL)に全く同一のコンテンツが掲載されていることを指す。ここでいう重複とは、グローバルナビやフッターなど、共通して設置される機能パーツを除く、ページのトピック(コンテンツ)にかかわる部分における重複の問題を指して取り上げられる話題だ。

近年、ブログやRSSフィード、ソーシャルサービスの登場により、外部のサイトに自分のコンテンツがそのまま掲載されるケースが増えている。たとえば、出力したRSSフィードをそのまま他のサイトが転載したケース、個人がメモがわりに全文をコピペしたケース、AdSenseなどコンテンツ連動型広告による小遣い稼ぎを目的とした、悪質なコンテンツコピペ、はてなやBuzzurlなどのソーシャルブックマークサービスによる「抜粋」という名目の下に生成されるコンテンツコピー発生ケースが考えられる。また、自分のドメイン内においても、CMS(コンテンツ管理システム)の仕様により、あるコンテンツを複数のカテゴリに所属させた場合にコンテンツが重複したり(Eコマースサイトでよくある)、異なる事業部が独立してウェブを管理し、互いが同じコンテンツを使って公開してしまうという企業のオペレーションの問題を起因として重複が生まれるケースもある。また、ウェブ表示用と印刷用にページを分けている場合も、両者はレイアウトこそ違えど検索エンジンから見れば重複していることになり、ユーザーの利便性を考えたサイト運営の結果が問題を引き起こすこともありうる。


スパムではないが、検索結果から「非表示」に

検索エンジンにとって、内容が同じページを識別し、それを検索結果でコントロールすることはサービス品質を維持する上で重要である。なぜなら、あるキーワードで検索した時に、コンテンツが同じページを多数検索結果に表示することは、ユーザーに提示する選択候補の幅を著しく狭め、検索体験の質の低下を招くためだ。そこで検索エンジンは、重複したコンテンツを同時に検索結果に表示しないようにする、つまり、いくつかのページを非表示にするという対応を取ることになる。

この「非表示にする」ことを理由に、重複コンテンツは検索エンジンスパムだと誤認識している人も多いのだが、Googleはこれを否定。『複数サイトに点在する同一コンテンツが表示されることはウェブマスターガイドラインの違反というわけではない』と説明している。この件についてはGoogleウェブスパムチームの複数の担当者も「重複コンテンツの問題は検索ユーザーの利便性を考えた上での対応であり、検索エンジンスパムという判断ではない」との見解を表明している(ad:tech、04/2007)※。


MFAや不正コピーサイトは基本的に表示されない

検索結果に同一コンテンツを多数表示しないために、Googleはアルゴリズムによりオリジネーター(コンテンツの元の作成者・サイト)を識別し、そのサイトは非表示ではなく検索結果に表示されるように配慮している。これはウェブ上の公開日時だけでなくリンク構造など他の様々な要素を用いて総合的に判断を行っている。したがって、小遣い稼ぎのスクラップコンテンツや個人ブログによるコピペなど、サイト運営者の許諾を得ていない、コピーサイトが検索上位に表示されることは基本的にはない。

もちろん、サイト運営者の許諾を得てシンジケーションしている、たとえば インターネットコム(オリジネーター)とYahoo!ニュース(シンジケーション)、SEMリサーチ(オリジネーター)とlivedoorニュース(シンジケーション)の関係のようにサイト許諾を得ているようなケースは大抵、検索結果にどちらも表示される。当然ながら、検索エンジンは、各々の関係が許諾を得ているか、得ていないかなど知りえないわけだが、結果として(検索ユーザーにとって不利益なものが)表示されないようなアルゴリズムの調整がなされている。

さて、Googleはこうした重複問題について、(1) 重複コンテンツが同一ドメイン内に存在する場合、(2) 重複コンテンツが他のドメインに存在する場合、の2つに分けて対応方法を紹介している。


重複コンテンツが同一ドメインに存在する場合の対処法

前者については、インデックスを望まないページを robots.txtやMETAタグ(noindex) で排除する、という方法を紹介している。印刷用・ウェブ用でページが分かれている、CMSの仕様による重複コンテンツが生成されてしまうケースでは、あらかじめ登録させたくない方のページを特定名称のフォルダにおさめておいてrobots.txt でクロール拒否設定すると簡単に管理できる。たとえば、印刷用ページは全て printer というフォルダに入れておいて、robots.txt で printer はクロールさせなければ解決する。


重複コンテンツが異なるドメインに存在する場合の対処法

後者は、ケースによって対処法が異なるが、実際のところ先述したとおり、許諾を得ていないようなコピペサイトなどはアルゴリズムの処理でそもそも検索上位には表示されないので、トラフィックを奪われるといった実害は実質的に発生しない(もし、コピペされたことを起こるのであれば、それは検索技術の問題ではなく法律の問題なので、コピーサイトに対して警告するなど他の対処をすればいい)。サイト管理者側で特別な対処は基本的には必要としない。RSSフィードを通じて全文配信しているが、重複コンテンツと判断されないかと心配する人は多いが、大抵、上手い具合にフィードを出力しているオリジナルの方が検索上位に表示されているはずである。


コピー・提携先サイトがオリジナルより上位に表示される場合の対処法

なお、シンジケーションサイトが複数存在する場合、オリジネーターのサイトよりもシンジケーションサイトの方が検索上位に表示されてしまうというケースは少なくない。たとえば、オリジネーターのサイトよりもシンジケーション側の(検索エンジンからの)絶対評価※が高い場合がそうだ(「絶対評価」の概念はここでは説明しませんが、わからない人も多いと思うので後日解説(たぶん)。極端な例を挙げると、誰にも知られていない、極めてマイナーなブログのコンテンツがYahoo!に掲載されると、たぶんYahoo!の方が表示されてしまう)。あるいは、BuzzurlのようにSEOに注力しているソーシャルブックマークに本文の一部を引用されてしまうと、オリジネーターよりもソーシャルブックマークの登録ページが検索上位に表示されてしまうこともある。


対処法(1) METAタグやrobots.txtでクロールを拒否する

こうした場合の対処法は、前者についてはGoogleがよく使うアドバイス「オリジナルの方にリンクを返す」ということを行う。つまり、シンジケーションサイトは通常、記事の提供元を明記するはずなので、そこに自分のサイトへのリンクを返してもらうことだ。たとえば、SEMリサーチの記事はlivedoorニュースにも掲載されているが、livedoorニュースからSEMリサーチにリンクが張られている。筆者が所属するアイレップでも同様にインターネットコムに記事を提供しているが、同サイトからアイレップに対してリンクが返されている。このように、提供先サイトが提供元サイトにリンクを張る(この行為はSEO関係なく、通常のビジネス慣習として行われているはず)ことによって、検索エンジンはオリジネーターを識別する時の判断材料として利用する。


対処法(2) 必要に応じて、引用拒否という方法も

後者のソーシャルサービスによる引用については、「引用させない」ようにrobots.txtやMETAタグ を用意する。たとえば「はてな」は引用を望まないサイト運営者向けに、引用拒否用のタグを用意しているので、もし「はてなブックマークの方が上位に表示されて困る」という悩みを持っているサイト運営者は、引用させないという対応をすることだ。Buzzurlはそういうタグはないので注意(ないと思う。FAQページ見たけどそれらしき情報はない。もしあったらご指摘ください→Buzzurl関係者 [UPDATE] と言ったらすぐ対応してくれた!Buzzurl、本文引用拒否するMETAタグ buzzurl noindex 用意)。


言葉の言い換えコピーサイトの対処法

【追記】 コンテンツ不正利用のコピペサイトについて。全く同一のコンテンツをコピペされる限りは検索アルゴリズムで自動的に排除されるが、文言を変えられた場合は別。例えば、私が過去に書いた「重複コンテンツ」の記事について、言葉を「デュプリケートコンテンツ」と言い換えてコピペしている人がいる。このケースでは、検索キーワードによってそちらのコピペサイトが上位に表示されることもある。この問題に対処したい時は、検索エンジンにクレームするのではなくて、そのコピペした人に対して著作権違反を指摘した方が早い。もし、その著作権侵害者に無視され、かつトラフィックが奪われて被害を蒙っているのであれば、デジタルミレニアム著作権法(DMCA)に従って検索エンジンにクレームをすればよい。

※ Googleの発言について補足説明を加える。もし、こうした(同じコンテンツが異なるドメインに存在する)状態をスパムであるとみなすと、News2uやバリュープレスのようなプレスリリース配信サイトの行為が悪いことになってしまう。これら会社は検索やSEOの世界と関係なく、通常の経済活動の一環として行っているのであり、そういった当然発生しうるものは「スパム」とは判断しない。ただし、同じプレスリリースを延々と検索結果に表示することは検索ユーザーにとってメリットがないので、検索エンジン側の判断で表示するページを取捨選択するという話。合理的な理由に基づいて特定のページが検索上位に表示されない状態になっていることと、それをスパムと呼称するかどうかは別の問題。関連として、Yahoo!検索で純粋アフィリエイトサイトが上位に表示されにくいのも、アフィリエイトサイトの存在がスパムなのではなく、そういった情報が検索上位に表示されることが検索の関連性(レレバンシー)という観点において適切なのか?を検討したYahoo!の決断の結果。

Duplicate content due to scrapers [Google Webmaster Central Blog]
http://googlewebmastercentral.blogspot.com/2008/06/duplicate-content-due-to-scrapers.html


#
この問題はよく質問されるのですが、対処方法がほとんど検索エンジン側から情報開示されているので、それをサイト制作に携わる人が読んで勉強した方がいい

Google、関連検索の生成アルゴリズム改善 - 時事ネタに対応

米Googleは2008年6月12日、関連検索(related search)の生成アルゴリズムを改良し、より現在の話題に即した検索キーワードの提案が行えるようになったことを明らかにした。Googleグループプロダクトマネジャー・Rajat Mukherjeeとソフトウェアエンジニア・Adam Westallの両氏がGoogle公式ブログで明らかにした。

関連検索とは、ユーザーの情報検索を支援するためにキーワードの提案を行う機能。ウェブ検索(自然検索)の画面上部と下部に表示される。Googleを利用するあらゆるユーザーが、自分が探し求める情報にたどり着くための適切なキーワードを知っているわけではないため、関連検索を通じて、入力されたクエリと同時に出現するクエリを表示することで検索の利便性を高めている。

関連検索に類似する機能はYahoo!JAPANも提供しているが、Yahoo!のそれはクエリベースでユーザーの実際の検索回数などに基づいて日々更新されているのに対し、Googleのそれはウェブベース(複数のデータソースを参照して決定しているということだが、基本的にクロールベース)であり更新タームが長かったために、時事キーワードなど今日の興味・関心に即した適切なキーワードが提案できているわけではなかった。

今回、この関連語句を生成するアルゴリズムを改良し、新しい話題についての語句をより早く表示できるようになったことで、ユーザーの今日の話題に対応したとしている。Googleはその例として、たとえば3G対応機器が登場して話題となったiPhoneについて、すでに関連するキーワードが表示できているケースを挙げている。

今回の関連語句生成アルゴリズムは米国(英語)でのみ対応しているが、今後、他の言語にも対応させていくとしている。

ちなみに、Yahoo!JAPANも先週、関連検索ワードの生成アルゴリズムを更新したことを発表している。

Fresher related search suggestions [Official Google Blog]
http://googleblog.blogspot.com/2008/06/fresher-related-search-suggestions.html

最近のニュース記事

米Google、リアルタイム検索にFacebookを追加


米Googleは2010年2月25日、公式Twitterにて同社のリアルタイム検索がFacebookに対応したことを明らかにした。


米YouTube、自動映像字幕作成機能を一般ユーザに公開


米YouTubeは2010年3月4日、動画共有サイト「YouTube」で、映像の音声を解析して自動的に字幕(キャプション)を作成する機能を全ユーザに公開したことを公式ブログで発表した。


最もリスクの高いキーワードは「アバター」 - マカフィー、検索リスクの高いアカデミー賞作品を発表


McAfee, Inc.は2010年3月5日、最も検索リスクが高いアカデミー賞ノミネート作品のランキングを発表した。


Google、ファーストビューに限定した広告配信を試験提供


米Googleは2010年3月4日、ブランド広告主のための新たなコンテンツネットワーク向けの広告配信機能を発表した。ファーストビュー(訪問者がページを訪問した時に、スクロールなしで表示されるスクリーン領域のこと、above the fold)に掲載枠を持つサイトに限定して広告を掲載できる。


Google、SidewikiエントリをWebmaster Toolsから直接投稿可能に


Googleは2010年3月8日、ウェブマスターツールの新しい試験的な機能を試すことができる"Webmaster Tools Labs"の新機能として、ウェブマスターによる特別なSidewikiエントリをGoogle Webmaster Toolsから直接投稿できる機能を試験公開した。


au one検索が検索機能強化、EZweb公式サイトはトップページのみ表示へ


KDDI株式会社は2010年2月26日、au携帯電話で利用できるウェブ検索「au one検索」の検索機能を強化した。一部、検索結果表示の仕様も変更される。


エフセキュア、PDFを使ったSEOポイズニング攻撃を確認


フィンランドのセキュリティ企業・エフセキュア(F-Secure)は2010年3月5日、SEOポイズニングの1つとして、PDFファイルを悪用した攻撃事例を報告している。














Ask.jp, Ask.com | Google 05-1 | Google 05-2 | Google 06 | Google 07 | Google 08 | Google 09 | MSN / Liveサーチ | SEO(検索エンジン最適化) | SES | Yahoo!検索 / YST | アクセス解析 / Web分析 | コンテクスト広告 | サイト内検索 | サーチニュース 07H1 | サーチニュース 07H2 | サーチニュース 08H1 | サーチニュース 09 | ショッピング検索 | デスクトップ検索 | ニュース 05Q2 | ニュース 05Q3 | ニュース 05Q4 | ニュース 06H1 | ニュース 06H2 | モバイル検索 / 携帯検索 | リスティング広告 | ローカル検索 | 動画検索 | 旅行検索 | 検索イベント |

検索市場分析 | コンテンツターゲティング広告 | ポータル / ディレクトリ | Google 2003 | Google 2004 [I] | Google 2004 [II] | Google 2005 [I] | AdSense / アドセンス | AdWords / アドワーズ広告 | Froogle / フルーグル | ローカル検索 | モバイル検索 | MSNサーチ | Overture / オーバーチュア | PFI - ペイドインクルージョン | ショッピング検索 | ペイドリスティング(PPC) | 検索エンジンニュース 2004 [I] | 検索エンジンニュース - 2003 | 検索エンジンニュース 2004 [II] | 検索エンジンマーケティング SEM | SEO - 検索エンジン最適化 | SEM/SEOセミナー | サーチエンジンストラテジーズカンファレンス(SES) | 検索エンジンニュース 05Q1 | 検索エンジンニュース 05Q2 | SEO / 検索 統計 | Yahoo! / ヤフー | P4P |

関連SEMサイト - SEMリサーチ | SEO - FAQ | SEO(検索エンジン最適化) | キーワードアドバイスツールプロ

検索にガンガンヒットさせるSEOの教科書 付録 |
運営者 - 『検索にガンガンヒットするホームページの作り方』