SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

米Google、ニュース検索の再訪問(クロール)を強化

米Googleは2010年1月25日、ニュース検索において再クロールを強化し、常に最新の更新を反映した記事を検索・閲覧できるようにしたことを明らかにした。

Google Newsは、世界中のニュースソースをクロールして記事見出しを収集するとともに、類似した内容の記事をグルーピングして表示するニュース検索エンジン。公開されてわずか数分のニュース記事も取得することで、常に最新のニュースを探せるようになっている。

ニュース検索エンジンは、一般のウェブ検索と異なり、一度収集したニュース記事のページを何度も再訪問するわけではない。しかし、これが特有の問題を招く場合がある。

たとえば、一部のニュースソースは、記事公開後に誤字脱字の訂正を行ったり、話の進展があった場合にアップデートを追記したり、あるいはヘッドラインを変更する場合があるが、これらがGoogle Newsに反映されないケースは少なくない。また、これらの変更を加えた場合にURLが変更される場合もあるし、何らかの理由で記事が取り下げられる場合もあるが、やはりGoogle Newsはこうしたケースにリアルタイムに対応できているわけではなく、デッドリンクが検索結果に表示されてしまう場合があった。

こうした問題を解決するために、Google Newsはニュース記事の再クロール(recrawl)を強化することを決めた。特に何らかの修正が行われるのは公開されて最初の24時間に行われるケースが大半であることから、新しいニュース記事を発見して最初の24時間は特に再訪問を何度か行い変更の有無を確認する。24時間経過後は変更される確率が下がるため、クロール頻度を徐々に下げていく。また、最初の訪問時に何らかの理由で記事が取得できなかった場合も、再取得を試みるようにするという。

上記のようなニュース記事再取得のプロセス見直しにより、デッドリンクや古くなったヘッドラインの割合を減らし、最新ニュース記事の反映と古くなった記事のリアルタイム・アップデートを両立させていくとしている。

Google News Comes Back For More [Google News]

http://googlenewsblog.blogspot.com/2010/01/google-news-comes-back-for-more.html

COPYRIGHT © 1997-2020 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。