SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

Google 主な検索アルゴリズム/検索技術 変更の歴史 7+1選

2000年1月から2013年12月までのGoogleの検索アルゴリズムや検索技術の変更・刷新の歴史の中で、重要なものを合計7つピックアップしてみました。

 

※ 当初このコラムは、直近の検索技術刷新(パンダやペンギン)にフォーカスするつもりでしたが、年末ですしちょっと過去にも遡ってみようという軽い思いつきで趣旨を変更しました。

 

 

1. フリッツ・アップデート(Fritz Update)(2003)

概要:インデックス完了までの時間を短縮、高速化。

アップデート内容:フリッツ・アップデート(以下、Fritz)はインデクシング技術の大幅刷新。2003年夏に導入。Googleは世界中のウェブページの索引をデータベース化したインデックスを、およそ30-60日程度の周期で全体更新(Full Index Update/Refresh)していた。すなわち、検索順位の変動が発生するのはこの更新タイミング、約1か月に1回の頻度であった。たとえば本日公開した記事が検索可能になるのは30~60日後という意味でもある。

ところでこのインデックス全体更新は瞬時に終了するわけではなく数日を要したため、この更新期間中のみサイトの検索順位が激しく変動していた。この変動の様子を当時はGoogle Dance(グーグル・ダンス)と呼んでいた。

Fritzはこのインデックス更新方法を完全に刷新した。直近で公開されたばかりのウェブページを検索結果に反映できるよう、従来のフルインデックスを残しつつ、別途、前回との差分をインデックスに追加する Incremental Indexを導入し、毎日、新鮮な検索結果を提示できるようになった。この変更により検索順位発生頻度は月1回から毎日へと変わり、Google Dance という言葉も消滅することとなった。

影響:2003年夏以降、Googleのインデックス速度は年を追うごとに高速化され、後述する Caffeine により飛躍的に検索結果鮮度が高まることとなる。

2. フロリダ / オースティン / ブランデー アップデート (Florida / Austin / Brandy Update)(2003-2004)

概要:リンクの関連性やサイトの権威性を考慮してランキングを計算するようになった。

アップデート内容:2003年11月から2004年2月にかけて行われた、今日(2013年時点)の歴史の中でも間違いなく最大規模といえる検索アルゴリズムの刷新。フロリダは2003年11月、オースティンは2004年1月、ブランデーは2004年2月。

当時、PageRankアルゴリズムが広く知れ渡り、それを逆手にとった様々なタイプのウェブスパムがまん延していた。例えば、1つのドメインに対して数百万ものサブドメインを設定してサイトを開設。そのサイトには1~2行のテキストと、検索順位を上げたいターゲットサイトへのキーワードリンクを書きこんでおき、その数百万ものサイトにアップロードするだけで検索順位を上げることが可能だった。

こうしたウェブスパムに対処するためにGoogleはFlorida Updateを導入した。この後、Florida Updateの不具合を修正しつつ新機能を追加した Austin が、さらにその不具合を修正するために Brandy が導入された。本稿では一連のアルゴリズムを1つの出来事としてまとめて以下に概要を記す。

まず第1に、Hilltopアルゴリズムが導入された。PageRankは検索クエリに依存しない、インターネット全体におけるサイトの重要度を推し量るアルゴリズム(Query Independent Algorithm)だったのに対し、Hilltopアルゴリズムは検索クエリに応じて最も専門的で相応しい、権威性の高いサイトを選択するアルゴリズム(Query Dependent Algorithm)だった。検索クエリと関連性が高いエキスパートドキュメントを2つ以上発見し、そのエキスパートドキュメントが相互参照するウェブサイトを特定することで権威性を評価するアプローチだ。このHilltopアルゴリズムは1~2単語以内の一般検索キーワード(Generic Keyword、たとえばキャッシング、転職、不動産、旅行などのキーワード)に適応されることで、検索結果に関連性が高いウェブページが出現するように大幅に改良された。

Hilltopはまた、当時横行していたリンクファーム、自分で大量のウェブサイトを立ち上げて互いに相互リンクする行為を完全に排除することも試みられた。IPアドレスや地域、リンクグラフの近接度など様々なシグナルを分析して「同一人物や利害関係者が関与しているであろうリンクネットワーク」の評価を下げるように工夫が施された。こうした一連のHilltopアルゴリズムによりホリデーシーズンを迎える直前に非常に大きな検索順位変動が発生したため、多くの企業から不平不満の声が高まった。以後、Googleはホリデーシーズン期間の大幅な検索アルゴリズム更新は実施していない。

この一連のアップデートで導入された機能がもう1つある。それは、検索クエリの類義語や同義語を判断して、検索結果に表示する技術だ。当時、Google はセマンティック技術を開発していた Applied Semantic(後に AdSense に導入される技術を持っていた企業)を買収した。同社が持つ Circa と呼ばれるセマンティック技術を検索に導入し、検索クエリの類義語や同義語(例えば SEO = Search Engine Optimization、AA = American Airlineなど)を判定し、それら文字列を含むウェブページも検索結果に表示するように改善した。このように1つの検索クエリに対してヒットする対象のウェブページが大幅に拡大したことも検索順位の大幅な変更を招くことになり、先述した Hilltopアルゴリズムとの(ほぼ)同時導入により英語圏を中心にウェブサイト運営者に多大なる影響を与えることとなった。

3. ビッグダディ(Big Daddy)(2005)

概要:検索基盤の刷新。今後の新機能開発・実装のための下地作り。

アップデート内容:Big Daddyは2005年12月にロールアウトされた、Googleの新しい検索インフラストラクチャ。将来の様々な新機能を搭載するための基盤整備という位置づけであり、この検索基盤刷新以後、nofollow や canonical、新しいリダイレクト処理、重複コンテンツ判定、リンクの信頼性評価、ユニバーサル検索など様々なアルゴリズム変更が次々と投入されることとなる。

4. カフェイン (Caffeine)(2009)

概要:検索基盤の刷新。インデックスの高速化、高性能化。

アップデート内容:2009年夏にプレビュー公開され、翌年2010年6月にロールアウトされた、検索インフラストラクチャの刷新。先述した Big Daddy から5年ぶりの検索基盤の刷新となる。当時すでに多様化が始まっていたオンラインコンテンツの様々な形式(ブログ、ニュース、画像、動画、etc)を問わず高速にインデックスして検索可能にすることを目指した。検索結果の鮮度を極限まで高め、ページ公開から数分程度でインデックスできるようにした。また、過去の「フルインデックス」と「インクリメンタルインデックス」という概念を改め、リアルタイムで動的にインデックス全体の鮮度を高めるアプローチをとった。更新インターバルがほぼゼロとなる。

5. パンダアップデート(Panda Update)(2011)

概要:コンテンツ品質評価のためのアルゴリズム。

 

パンダアップデート

アップデート内容:2011年2月に導入されたパンダアップデートはコンテンツの品質を評価し、ある話題に対する分析や考察が詳細に行われているなど来訪者に価値ある優れたコンテンツを提示するウェブページを検索しやすくすると同時に、内容が乏しい来訪者に役に立たないウェブページが検索上位に表示されないようにすることを目的とした検索アルゴリズム更新。当時、米Demand Media に代表される、世界中のフリーライターが日々大量の(決して品質が高くない)コンテンツを大量投入してGoogleからトラフィックを獲得するビジネスが横行したことや、SEOを目的として役に立たないページを大量生産してみかけ上のサイトの規模を大きくする行為が横行していたが、こうしたコンテンツは来訪者にとって価値はほぼゼロに等しい。こうした状況を放置しておくことは中長期的に検索品質のさらなる低下を招き、検索利用者の離反を招く恐れがあることから、対処するためのアルゴリズムとしてロールアウトされた。パンダアップデートはその後、一定の周期でデータ更新が行われており、2013年12月現在は月に1回、パンダアップデートを適用したデータリフレッシュが実施されている。

 

6. ペンギンアップデート (Penguin Update)(2012)

概要:ウェブスパム排除のためのアルゴリズム。

 

ペンギンアップデート

 

アップデート内容:2012年4月に導入されたペンギンアップデートはブラックハットSEO、つまりウェブスパムの排除を目的とした検索アルゴリズム更新。先述したパンダアップデートは"コンテンツの品質を評価する"ことに重点を置いたアルゴリズムであるが、このペンギンアップデートは"ウェブスパムを排除する"ことに重点を置いている。傾向として比較的古典的なウェブスパムを無効化しているのが特徴で、たとえば相互リンクサイトへの登録、ワードサラダあるいは適当な日本語を記述しつつ随所にキーワードリンクを埋め込む手法、関連性が低く低品質なサイトからかき集めたリンクの無効化、RSSを取得してコピペしただけのサイトなどへの対策が行われた。

7. ハミングバード(Hummingbird)(2013)

概要:話し言葉(会話調)検索クエリの解析。

 

ハミングバード

アップデート内容:2013年9月に導入されたハミングバードは音声検索による口語調の検索クエリや、ピンポイントな情報を欲しているであろう複雑な組み合わせの検索クエリを用いた場合でも、検索意図を汲んだ関連性が高い検索結果を表示するための、検索クエリの処理に関する技術刷新。

検索クエリとして入力された文字列をそのまま受け入れて、文字列を含むウェブページから関連性が高いページを探すのではなく、その文字列の背後にある検索利用者の意思や意図をくみ取り、その意図に合致した、すなわち、検索利用者が欲しているであろう回答を検索結果に表示するように試みた。例えば「新宿駅近くの駐車場は?」という検索クエリを例にとろう。例えば「近くの」は「徒歩3分」「周辺」「近所」「近くの」といった言葉も意図に合致するし、同じく駐車場も「コインパーキング」「パーキング」といった文字列を含むページでも検索要求を満たしているはずだ。こうしたパラフレーズ(言い換え)可能性のある言語のうち、検索意図を汲んでいるであろうパラフレーズを選択し、それに関連する検索結果を提示するようにすることで、口語調の検索クエリに対しても適切な検索結果を返すことが可能となった。

+1. ユニバーサル検索 (Universal Search)(2007)

 

概要:ウェブ、画像、動画、ニュース、ブログ、地図などの各種コンテンツを検索結果に複合表示。

アップデート内容:2007年5月に導入されたユニバーサル検索は、検索タブで分類されていた垣根を取り払い、検索意図に適合するあらゆる種類のコンテンツを検索結果に混在表示する、検索技術の刷新。

インターネット検索が開始されて以来、ウェブページを探す機能は「ウェブ検索」、画像を探す機能は「画像検索」、ビデオは「ビデオ検索」といった具合にコンテンツの種類ごとに検索機能を分けるタブが検索窓上部に用意され、検索利用者が自分の目的に応じて切り替えて利用することが半ば常識だった。しかし実際の検索タブを利用するユーザーはほんの一部であった上、そもそも検索タブの機能自体を認識していないユーザーも少なくなかった。しかし当時のインターネットではYouTubeなどの動画共有サイトや画像共有サイトなど多様なコンテンツを扱えるウェブサービスが次々と登場していたこともあり、こうしたテキスト以外の情報を容易に探し出せる検索手段が必要と認識されるようになった。

ユニバーサル検索は、検索クエリと関連性が高い全ての種類のコンテンツを抽出したうえで、クエリとの関係性やコンテンツ自体の重要度も考慮して最も相応しい検索結果を表示することを試みた。たとえば「阿波踊り」「チャーハンの作り方」「ダンス」「航空自衛隊」など動画で参照することが適切であろうクエリには動画の結果リンクを表示したり、「紅葉」「クリスマスイルミネーション」「オーロラ」「富士山」のような画像提示が相応し検索クエリには画像検索結果を織り交ぜたり、あるいは最新の話題に関するクエリであれば最新ニュース記事へのリンクを表示するといったように、検索クエリと時世に応じて最も適切なコンテンツを選び出して複合表示した。

このユニバーサル検索の「複合・混在表示」は後に登場する Bing も採用する。

 

#

投稿してから、「ユニバーサル検索を何故いれないの?」という疑問がわいたのですが、もういいや…。どうしよう。 [UPDATE] 8個になっちゃいましたがユニバーサル検索を追加しました。

COPYRIGHT © 1997-2021 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

お問い合わせ(お仕事の相談、講演依頼など)

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。