SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

Google検索結果が御嶽山の噴火に関する記事ばかりになるのは何故?

世の中の一般的なユーザーは、何となく便利だから Google や Yahoo!検索を使っているけれども、どうして今目の前に表示されているような検索結果になるのかという仕組みや背景について特に気に留めることなどないのです。だから、先週末から Google で「御嶽山」と検索した時に、なぜ御嶽山噴火に関するニュースが検索結果に数多く出てくるのかという技術的な理由など説明出来ない方が大多数ですし、それが普通です。

理由は、ここ数年のアップデートのせいで、google検索の結果が偏っているからです。もとから偏っていたのですが、暴走気味です。特にfreshnessというか、情報の新鮮さを やたら優先するようになって、ニュースやブログが優先されて、普遍的な情報を発見しにくくなってしまいました。たとえば、今の時期ですと、御嶽山で ググると噴火のニュースばっかりです。他の検索エンジンですと、普通に御嶽山の登山コースとかでてきます。[村上福之, 検索でGoogleしか使ってない人は情弱]

今年の2月に公開した『プロ野球 オープン戦』で学ぶ Google検索アルゴリズムの仕組み - クエリ分析と文書評価という記事で既に説明しているのですが、改めて解説をします。

検索エンジンと関連性の問題

検索結果の関連性(relevancy)の問題なんですよね。

関連性というのは非常に難しくて奥が深いお話です。ある検索クエリ「A」と検索した人が1万人いたと仮定しましょう。この時に、その1万人全てが満足する、ベストだと考える検索結果を表示することは非常に困難です。なぜなら関連性は極めて主観的なものだからです。

例えば、10代~20代女性が「女子アナ」と検索した場合に望む、ベストだと思う検索結果と、10~20代男性が「女子アナ」と検索した時の望む検索結果は異なります。艦隊これくしょんにはまっている人が「長門」と検索した時に望む検索結果と、艦これに全く興味がない普通の軍艦マニアが「長門」と検索した時に望む、それぞれがベストだと思う検索結果は違います。Google画像検索で「真田幸村」と検索した時の結果について、全員が納得いくことはないでしょう。

全く同じ検索文字列が入力されても、望んでいる検索結果、検索の意図は千差万別です。全員が納得できる検索結果を出すのは難しいのです。

こうした関連性の問題を解決するために、Google はユーザーの過去の検索行動やクリック履歴を活用して検索結果を1人1人の趣味嗜好にあわせて個別化(パーソナライズ検索)したり、検索を行っている現在地情報や使用中の言語など、様々なシグナル(あるモノゴトを判断するための基準、手がかり)を使って特定のユーザーが本当に求めていることを推定するなど様々なアプローチを組み合わせて、できるだけ多くの検索ユーザーに共通して満足してもらえるような検索結果を表示することを努めているのです。

そうした関連性を高めるためのアプローチの1つが、インターネットで新規に生まれたウェブページの変化量と検索クエリの数量変化に逆目して検索結果をリアルタイムに変化させていく方法です。

ウェブページの変化は、世の中の出来事・関心事を反映する

ある時点を境に、ある話題について言及するウェブページが新規に大量発生したとき、それは世界のどこかで発生した大きな事件や出来事に、世間の注目が集まっていることの証なのです。例えば、少し前の「デング熱」など良い例ですね。報道をきっかけに各ニュースメディアが記事として日々取り上げたことで、ネット上にも「デング熱」に関連するウェブページが急速に増加しました。

その話題に言及するウェブページが日々増加しているのは人々の関心が集まっているから増えているのであり、従って、いま「御嶽山」と検索するユーザーは、そのリアルタイムで注目を集めている火山噴火に関連する記事を望んでいる可能性の方がずっと高いと推定できます。「いま」検索するユーザーは、Google がクローラを巡回させることで把握した「御嶽山の火山に関するニュースが急激に増えている」というデータの根拠に基づいて、最新ニュースを表示する方がより多数のユーザーの検索満足度を高められると考えることは一定の合理性が認められると思います。

もちろん、この事件をきっかけに登山道に興味を持つユーザーも少しはいるでしょうが、Google はオートコンプリートで「御嶽山 登山」といった検索クエリを提案することで、そんなユーザーの検索ニーズをアシストしてあげる配慮もしてくれているわけです。あるいは、詳細な登山道ルートを知りたいというピンポイントなニーズであれば「御嶽山 登山道」と検索すればお望みの結果が一発で得られるでしょう。

検索クエリや検索行動の変化もまた、世の中の出来事・関心事を反映する

今までウェブページの数量変化について説明してきましたが、こうしたリアルタイムな世間の注目・関心事は、検索クエリの数量変化やユーザーの検索行動からも、Google の立場であれば容易にデータ分析を通じて導き出すことが出来ます。こちらはQDF(Query Deserves Freshness)という言葉を耳にしたことがある方がいるかもしれません。

御嶽山の火山噴火の報道がされてから数時間かけて、急激に御嶽山に関する検索数量は増加したに違いありません。Yahoo! の急上昇ワードランキングに「御嶽山の噴火」がランクインしていますし、Google Trends を見ても明白です。

御嶽山のGoogleトレンドデータ

※ Google Trends へのリンクが上手く働かなかったので一応 Google+ からのリンクも掲載しています

理由もなしに私たちは検索しません。きっかけがあるから検索するのです。ある時点を境に急激に検索が増えたのであれば、世界のどこかで何かが起きたと考えてほぼ間違いない有りません。そして Google は、「何が起きたのか」をその検索クエリと実際にユーザーがクリックしていくウェブページ、さらに先述したウェブページの変化から、容易に「いま、検索ユーザーが知りたいコト」をデータに基づいて推定できます。

だから、大多数の検索ユーザーに満足してもらう、本当に知りたい情報に素早くアクセスしてもらうためには、御嶽山の登山に向けての準備や御嶽山のすばらしさに関する情報ではなく、いま起きた御嶽山の噴火に関する情報を優先的に表示した方が良いと考え、そういう検索結果を表示しているのです。

世間の関心が薄くなれば、検索結果も元通り(普遍的)に

ここまで触れてきた通り、Google は急激なウェブページや検索クエリの変化を発見したから、それに即応して検索結果に表示すべき情報の鮮度や話題性をユーザーニーズに合わせています。しかし世間の関心が薄まれば、当然求められる検索結果も変わってきます。Google が持つデータであれば、検索クエリの回数が落ち着いたり、ある特定の話題に言及したウェブページの新規発行量が減ってきたことを探知すれば、「世間の関心事ではなくなった」と判断して、単純な鮮度・最新情報優先ではなく、一般的な検索ユーザーのニーズに対応した(多くはより一般的・普遍的な)検索結果へと変化していきます。10月1日現在のデング熱やSTAP細胞の検索結果など良い例ではないでしょうか。

御嶽山の噴火について述べている記事を選択できる Google

ちなみに本コラムは、「御嶽山 噴火」という言葉を用いていますが、御嶽山と検索しても Google ニュースでは検索結果に出で来ないと思います。ウェブ検索結果でも上位にはたぶん出ません。なぜなら、「御嶽山 噴火」という単語こそ使っていますが、全体の趣旨(トピック)は全然関係ないからです。Google は、きちんと本文が御嶽山の噴火について言及しているかどうかを全体の文脈から判定できるからです。

リアルタイムな出来事の検索に対して情報鮮度優先は正しいのか?

冒頭で述べた通り、関連性というのは主観的で、ある検索結果を大好きという人もいれば大嫌いという人もいるのです。ただ、最大公約数の検索結果はどうあるべきかを考えると、決して理不尽なアプローチではありません。例えば、いまクリスマスどうしようかなーと考えて(いま)「クリスマス」と検索する人は、2014年のクリスマスのこと考えているはずなんですよ。2013年や1999年のクリスマスのこと考えて「クリスマス」と検索する人はまず、居ません。そんな時に、2014年のクリスマス特集を中心に表示してくれる Google と、なぜか2009年や2005年のクリスマス特集を表示してくれる他の検索エンジンを比べたら、やはり Google の方が優れていると思うのです※1。来年の2月か3月に「桜開花情報」と検索する人は、2015年3~4月のお花見のことを考えているのだから、2015年のお花見情報を出す Google が正しいのであって、平気で過去のお花見情報を出してしまう他の検索エンジンは、良いとは言えないのです※2。

※1 11月になったら「クリスマス」と検索してお試しください

※2 今年の2月、3月に「お花見」や「桜開花」と検索すると、Google 以外の検索エンジンは実際に昨年以前のお花見情報や桜開花情報を出してきた

関連性に対する哲学・理念

関連性は主観的ですから、検索エンジン各社が考える「最高の検索結果」に対する意見も異なります。どちらの意見が正しいかという問題ではなく、思想や哲学・理念の相違です。検索会社Aは、○○○のような検索結果が最高の検索エンジンだと考えるかも知れませんが、検索会社Bは、△△△のような検索結果を提示する検索エンジンが最高だと考えることもあります。そうした検索の理念や哲学の違いは、検索各社の検索アルゴリズムに反映されます。

例えば、「American Express(アメリカンエクスプレス)」と検索した時に、Microsoft Bing は一時期、同カード会社のドメインが検索結果ページのほぼ全てを占めている時期がありました。同時期の Google は、American Express の公式サイトのほか、提携金融機関などのサイトも出ていました。

Google は検索結果の多様性(Diversity)、つまり提示する情報ソースは偏りなく、検索者が様々な意見や情報を取得できることが望ましいという理念に基づいて、そうした検索結果になるように検索アルゴリズムを調整していましたが、Bing は特定のブランドクエリであればその多様性は必ずしも当てはまらないという立場にたって検索アルゴリズムを調整していたわけです※3。

2000年代中頃、まだ Yahoo! JAPAN が独自の検索技術(YST)を利用していたころは、金融やクレジットカード、不動産などのクエリで検索した時に、アフィリエイトサイトが検索上位に表示されにくくなっていました。一方の当時の Google はアフィリエイト問わずあくまで関連性が高くユーザーに役立つサイトであれば検索上位に表示する立場でした。Yahoo! は『アフィリエイトサイトの大半は、その提供事業者のサイトに掲載されているもの以上のコンテンツを提示していることは希であり、従って検索上位に出す価値が低い』という哲学に基づいてアルゴリズムを調整していたのですが※4、Google は検索結果に商品の比較を手助けする情報もまた有益であるという考えに基づいてアルゴリズムを調整していました。アフィリエイターは自らの置かれた立場的に Yahoo! JAPAN の考えは気にくわないかもしれませんが、検索利用者にとってどちらが有益なのかという視点で考えれば、Yahoo! JAPAN の言い分も、Google の言い分も理解はできますよね。

※3、※4 は各社の中の人からの話を元に、説明を平易にしています

こうした検索エンジンの検索に対する理念や哲学の背景を理解すると、よく大きな検索アルゴリズム変更の直後に、一部のユーザー達が「俺たち中小企業に対する嫌がらせか」「Google は俺たちのビジネスが気に入らないから順位を落としたんだ」「Googleは生意気だ、独占しているからといって好き放題している」といった主張や行為がいかにバカげているかも理解できるのではないでしょうか。自分のサイトの順位上昇下降のところを見ているそんな一部の自分中心なユーザーが見ているところと、検索各社が見ているところは全然違うのですよ。特定のスパムを排除するアルゴリズムの調整はともかく、大抵は「検索利用者のことを考えて、よりふさわしい検索結果を提示するためのアルゴリズム変更」であり、その結果として、適切ではないと判断されたサイトは順位が落ちたに過ぎません。

そんなわけで、Google が気に入らない、ちょっと違う検索結果が欲しいなと思った時には、Microsoft Bing を使ってみても良いでしょう。残念ながらここ日本で、Google の代替になり得る検索エンジンは2014年10月現在、Bing しか存在しません。バイドゥはインデックス更新を停止していますし、Yahoo! JAPAN や @nifty、BIGLOBE、Excite などは皆 Google のインデックスに基づいています。jp.ask.com はアービトラージサイトで問題外でしょう。

#

本記事を執筆していた時点で(まだ公開していないのだから)当然本ページは Googleにインデックスされていませんので、文中の説明に反して「御嶽山 噴火」で検索上位に表示されてしまっていたらどうしようとか思ってましたが、やはり出てきませんでした。このあたり Google 賢いですね(2014/10/02 10:00)

COPYRIGHT © 1997-2020 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。