Google、HTMLフォームの送信先ページをクロールする実験を開始

米Googleは2008年4月11日、HTMLフォームの送信先をクロールする実験を開始したことを明らかにした。これは、検索エンジンがアクセスできないウェブページの総称、いわゆる「インビジブルウェブ（Invisible Web）」領域内にあるコンテンツのカバレッジを増やす狙い。この試みはGoogleが選択したほんの一部の高品質なサイトに限定して実施されている。

これまでGoogleはJavaScriptやFlashなど、かつてクロールできなかったコンテンツを解析して発見したリンクを辿るなどの改良を行ってきた。今回はgetメソッドを持つ、FORM要素を発見した場合、セレクトメニューやチェックボックス上に出現した言葉、あるいは当該ページ上から抽出した任意のキーワードを使ってフォーム先のクロールを試みる。ただし、getメソッドではない、password や logins、userids、contactsなどのフィールドを持つフォームはクロール対象外。また、当然ながら robots.txt で当該フォームのURLのクロールが禁止されている場合も巡回は行わない。

あくまでインビジブルウェブ領域のインデックスを増やすための試みに過ぎないため、HTMLフォームの先のページも通常のウェブページと同様に取り扱われるし、ランキングやPageRankなどで特別な措置がとられることもない。

ちなみに、Googleは同社のウェブ検索結果の中に検索結果へのリンクが表示されることをユーザーのサーチエクスペリエンスの観点から好ましいとは考えていない。例えば米Technoratiは意図的に同社の検索結果が検索にヒットしやすいように施策しているが、ユーザーは検索結果から検索結果へ誘導されてしまうため、Technoratiにとってはトラフィックを獲得できるがユーザーに”回答”が示されるわけではないからだ。

もしHTMLフォームをクロールする場合、サイト上に設置されたサイト内検索結果をクロールしうることになる。SearchEngineLandのDanny Sullivan氏のこうした疑問に対し、米GoogleエンジニアのMatt Cutts氏は、今回の施策は検索結果をクロールするのではなく新しいリンクを発見することに重きがおかれており、ウェブサーバに配慮しつつ効率よく新しいリンクを見つけられていると説明している。

Crawling through HTML forms [Official Google Webmaster Central Blog]

http://googlewebmastercentral.blogspot.com/2008/04/crawling-through-html-forms.html

Solved: another common site review problem [Matt Cutts: Gadgets, Google, and SEO]

http://www.mattcutts.com/blog/solved-another-common-site-review-problem/

Googleが発表しているとおり「一部のサイト限定」なので多数の一般サイト管理者が気にする話ではない。

そもそもHTMLフォームはクロールされにくい仕様であることに変わりないので、SEO（＝検索エンジンフレンドリーなサイト）を構築するならセレクトメニューなどでナビゲーションを作らないこと。

SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

Google、HTMLフォームの送信先ページをクロールする実験を開始