Googleが発表した大規模な検索インフラのアップデート「Caffeine Update」(カフェイン・アップデート)。技術的にはGoogle File System(GFS)をオーバーホールした新たなGFS2の活用、MapReduceやデータベースシステムBigTableの改良などが伝えられていますが、現行のGoogle検索結果(SERP)と比較してCaffeineはどう違うのでしょうか。
Google Caffeineの相違点(昨夜~今朝にかけて適当に分析した結果、私見です)
1. SERPの表示が若干速い(インデックスシステムの刷新によるものと考えられる)。
2. 新規公開したページのインデックス完了までの時間が短縮(※ 新規開設した"サイト"(ドメイン)の場合は不明)
3. 巡回のインターバル時間(クローラの再訪問までの時間)が短縮。
4. 一定時間以下でクロールするサイトの範囲拡大。リアルタイムで収集する対象範囲が広がっている感じ。
なお、今回は2005年末のBigDaddy Updateに相当するもの、インデクシングシステムやインフラストラクチャの全面刷新です。SERP UIに変更があるわけではありません。また、現行Google SERPと比較して検索順位が若干違うことからアルゴリズムの変更も行われているという指摘もありますが、アルゴリズム改良は日々行われているであろうことですし、新しい検索インフラで導入されているアルゴリズムが若干違うのも当然でしょうから、そこの違いは大した問題ではないでしょう。Googleがこの新しい検索インフラを整えたことで何が実現可能になるかを考えた方がおもしろいと思います。すでに検索の専門家が指摘しているように、リアルタイム検索の技術革新、性能向上を見据えていることは間違いないと思います。
cf.
マットカッツ、アップデート「カフェイン」インタビュー (2009/08/13)
Google、次世代検索「Caffeine」プレビュー公開 (2009/08/11)