Google フレッシュクロールの条件(前編)の続きです。まだ読んでない方は先に前編をお読み下さい。
検索エンジンが最新のWebページ情報を取り込む際の指針は、「いかに効率よく新鮮なWebページのみ巡回して更新していくか」にかかってきます。頻繁に更新されるWebページで、かつユーザーの利益に適うWebページを選別してそれらのクローラーの巡回頻度を上げればよいことになります。こうすればWeb全体のインデックスを保持しつつ最新のWebページ情報も取り込めることが可能になり、検索の利便性を高められます。
Google - freshbot の動き
Google フレッシュクロールを行う freshbot ですが、次のような動作をしていることが観察されます。
freshbot はできるだけ最新のWebページを収集することを目的としています。従って、freshbot は (a) 既にインデックスに登録されているページを訪問して、情報が更新されていないかを確認するとともに、(b) 新規に追加されたページを探して追加していきます。ただし、先述した通り全てのWebページを巡回していては間に合いませんので、重要なページだと判断される範囲に絞って freshbot が訪問をします。
freshbot が収集したWebページは、検索結果(以下、SERP)のURL横に日付の表示の有無によって確認できます。日付が入っているものはフレッシュクロールされたことを示しています。
なお、freshbot はWebページが更新された場合のみ最新情報をインデックスに反映しているわけではありません。Google の持つアルゴリズムによって、頻繁に更新されるWebページと判断されている場合は毎日 freshbot が訪れるため仮にWebページ情報に変化がなくても SERP の日付が更新されることがあります。これは Google がWebページを訪れた時にサーバーに対して If-Modified-Since を問い合わせることでページの更新有無を確認していることと関係しています。
フレッシュクロール対象サイトになるための条件
Google freshbot による日付入り掲載の仕組みについて大枠を理解したところで、今度はこのフレッシュクロールの対象サイトはどのように決定されているのか、つまりフレッシュクロール対象サイトになるための要件について説明していきます。
結論から言いますと、正確なところは不明です。後述しますが、フレッシュクロールの動きは常に変化しており同じ条件下にあってもクロールされる時とされない時があるからです。ここでは、過去2ヶ月分のデータに基づいて、いくつか条件を挙げていきます。
(1) PageRank 値
Google ツールバーで見たときの PageRank値。目安として3。ただ、観察している限り、PageRank値がなくても登録されるケースもあり、後述する(3) との関係の方が高いかもしれません。
(2) 更新頻度
先述した (b) のフレッシュクロール対象となる条件としては、更新頻度はある程度関与していると思われます。更新されないサイトにクロールが来ることは意味がないのであり、従ってある程度定期的にWebが更新されていることは条件になると推測されます。
(3) 外部サイトからのリンク
PageRank値そのものよりも、こちらの条件の方が重要なようにみられます。つまり、既にフレッシュクロール対象となっている PageRank の高いWebページからリンクされることでフレッシュクロールが定期的に行われているような様子がうかがえます。
フレッシュクロールの動きはあまり気にしないこと
以上、Google フレッシュクロールの状況について現時点で観察できた限りの情報を書いてきましたが、フレッシュクロールは Google でも様々なテストを行っているようで月日とともにその動きにも大きな変化が見られます。ここに記載した情報も1ヶ月もすれば古くて使えなくなっている可能性もあります。
このような状況ですので、Google のフレッシュクロールについては一喜一憂しないことが賢明です。日々大きな変化を遂げているような対象に対していちいち注意を払う必要はありません。
[関連]
[参考]