10 年ほど前の検索エンジンは、インデックス更新サイクルが1ヶ月長と長かったため、新規にウェブページを公開してもアクセスを得るのに非常に時間がかかりましたし、また最新のニュースへ検索エンジンを通じたアクセスはできませんでした。しかし今日のGoogleやYahoo!はクローラやインデクシングの進化に伴い、完全なリアルタイムとまでは行かずとも、数分~3時間で新しいウェブページを登録・検索可能にしています。たとえばGoogleはいま世の中で起きている出来事に関するクエリで検索すれば、検索結果に1時間前や2時間前に発行されたばかりのウェブページを数多く検索結果に表示します。
しかし、あらゆるウェブサイトで発行されたウェブページがこのように、"ほぼ"リアルタイムでインデックスされるわけではありません。どうしたら、ウェブページをすぐにインデックスさせることができるのか。Googleエンジニア・Matt Cutts氏がYouTubeビデオで回答を寄せています。
"How much time is Google taking to index a new webpage, and how can we accelerate the process bisides using Google Webmaster Tools?"
「たくさんのリンクが張られること」これがMatt Cuttsの答えです。Google Webmaster Toolsを使ったXMLサイトマップというのは、サイトのURL構造を伝える、クローラビリティを支援するものであり、これの発行すなわちインデックス時間の短縮を表しているわけではありません。
世の中のユーザの関心事となっているウェブページであればTwitterやブログなどを通じてリンクされるでしょうから、そうしたウェブページは検索結果に表示する価値がある、したがってインデックスも速くなります。
一般のウェブサイトであれば、RSSの発行、ping送信などによって結果的に他のウェブページからリンクが張られることになるので、これも間接的にインデックス時間を短縮するのに貢献します。
なお、30日に米国で開催されたWordCamp San Francisco 2009にて講演したMatt Cutts氏の話によると、PageRankが高いほうからクロールしていく、という話もでています。