SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

Google フレッシュクロールの仕組み・条件 (前編)

9月の終わりに Googleフレッシュクロールを取り扱った記事:消えゆく Google ダンス ・・・クロール能力はどこまで上がる? を掲載しましたが、色々なコメントや質問を頂きましたので、今回は1歩踏み込んだ話をしましょう。

皆さんの意見・質問をまとめると、大別して次の4つの質問に分類できました。

(1) どうしたら Google の freshbot(フレッシュボット)が訪れるのか?

(2) PageRank が 5あるのに freshbot が訪れないのは何故?

(3) freshbot が来たけど index.html しか巡回しない

(4) freshbot が1週間に1度しか来ない

皆さんが抱えているこれらの疑問に対して、現時点(2003/11/05)で検証が済んだ範囲内で、参考になると思われる情報・分析について紹介をしていきます。

なお、私は何年か前に、米WebCrawler の検索アルゴリズムを開発した方のインタビューを雑誌か何かで読んだことがあるのですが、その時にその開発者の方が新鮮なWebページの収集に関しても示唆に富んだコメントをしていました。それも参考にして、現在の Google フレッシュクロールの状況をまとめています。部分的に間違っているところもあると思いますし、部分的には正しい部分もあるかと思います。英国のSEOスペシャリストの方とチャットで話した時に2人でまとめた話ですので、参考程度にお読み下さい。

Google フレッシュクロールの例

Google フレッシュクロールされた例。検索結果に表示されたページの下に、日付が表示されている。上記画面では11月16日と示されており、クローラーがこの日に収集したことを意味する。

フレッシュクロール 概要

まず最初に、なぜ Google はフレッシュクロールなるものを行っているのか、それを実行するに至った経緯・フレームワークを理解しましょう。

ロボット型検索エンジン(以下、特に断りがなければ、"検索エンジン"はロボット型検索エンジンの事を指します)はユーザーからの検索要求に対してリアルタイムにWebを巡回してキーワードを含んだWebページを探しているわけではない、ということはご存じですね。実際には、あらかじめ検索エンジンが作成しておいたインデックス(世界中のWebページ情報をまとめたデータベース)の中から該当するキーワードを含んだWebページを探しているのです。つまり、検索エンジンというのは各々が持つインデックスというデータベースから検索しているわけです。

検索エンジンはクローラーというWebページ収集ロボットをWeb上に放ち、Web情報を収集します。収集が終わったところでそれらをまとめインデックスを構築します。この作業はおよそ月に1回程度行います。Google も Inktomi も AllTheWeb もおおよそ月1回程度行っています。

(※ infoseek や NAVER のようにほとんどインデックスを更新しない、あるいは非常に古いインデックスをいつまでも保有している検索エンジンもありますが、本稿ではこれらを"悪い例外"として除外しています。読者の方もとりあえず忘れて下さい)

月に1回程度インデックスを構築し更新するということは、ユーザーが検索を行っている時には既に1ヶ月前の古い情報を元に検索を行っていることを示唆しています。しかし、古いインデックス情報を元に検索をするのでは不都合が生じます。

例えば、ここ1週間の間に起きたイベントやニュースを検索することができないのが典型的な例でしょう。検索エンジンは情報を探し出すためのツールですから、最近のニュースについても探せる方がユーザーの利便性は高まるはずです。しかし現状のインデックス更新サイクルでは検索エンジンはこの要求に応える事ができません。

また、ニュースサイトに限らず1ヶ月もあれば何度か更新されているWebサイトは少なからずあるでしょう。しかし先述した理由のため検索エンジンはこれらの情報をカバーすることはできません。

毎日、あるいは1週間に1度くらいWeb全体をクロールするようにして、インデックス更新サイクルを短くすればよいのではないか?と考えるかもしれませんが、それは技術的に不可能なのです。60億以上存在するWebページの収集を1週間で行うことは不可能です。Google が現時点で保有しているインデックス数ですら 30億ちょっとであることを考えても想像できるでしょう。

更新される情報のみ、クロール頻度を上げる

そこで検索エンジン開発者は考えたわけです。定期的にWebページ全体のインデックス情報を更新するのはよしとする。何故ならリンク切れや存在しなくなるWebページもあるのだから、それらを除外して新たにインデックスを作り上げることは必要だからです。でも、全体を同じ周期で更新する必要はないわけで、ある一部分のWeb情報だけ更新周期を変更すれば良いのでは?と。

Webには何十億ものWebページが存在するとはいえ、その中の3〜4割は似通った情報や検索エンジンスパマーが構築したダミーサイト、他のサイトへのリンク情報のみを持ったサイトなど、常に最新の情報を反映させる必要性の薄い(価値のない)Webページは存在します。また、世界中のWebページの中でも毎日更新されているWebページは、ニュースメディアを覗いてしまえば微々たるものです。個人や企業のサイトでも、毎日更新するユーザーもいれば1週間に1,2回程度、あるいは2週間に1回程度と更新頻度には差があるでしょう。

つまり、Web全体のインデックス情報は毎日・毎週更新する必要性はないのです。要は、常に更新されているWebページをインデックスに反映させてあげればよいわけです。ここで、検索エンジン開発の視点は「いかに効率よく新鮮な情報のみ収集していくか」になってきます。

(後編に続く)

Google フレッシュクロールの条件 (後編)

COPYRIGHT © 1997-2021 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

お問い合わせ(お仕事の相談、講演依頼など)

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。