Google、「地域分散クロール」と「言語依存クロール」を開始

米Google は2015年1月28日、同じURLながら検出したユーザーの来訪国や使用言語に基づいて異なるコンテンツを返すウェブページ（地域対応ページ、 Locale-Adaptive Pages）のインデックス登録を改善するために、地域認識クロールを導入することを公式ブログで発表した。

全ての国・言語版のウェブページがインデックスされない問題

Googlebot が一般的に利用するIPアドレスは米国と判定されるうえ、クローラは HTTPリクエストヘッダーに Accept-Language HTTP ヘッダーを設定していない。このため、来訪者のIPアドレスや使用言語に基づいて表示するコンテンツを決定している Webサイトは、米国版以外がインデックス登録やランク付けが行われない場合がある。例えば、米国、フランス、ドイツ、日本、中国の5カ国対応ページが同じURLで提供されている場合、従来の Google が正常にインデックスするのは米国版のみだった。

今回、こうした地域に基づいてアダプティブにコンテンツを表示するWebサイトに対応するために、地域認識クロール（locale-aware crawling）を導入する。

地域分散クロールと言語依存クロール

地域認識クロールによって、地域別に提供されているコンテンツが世界中のユーザーにコンテンツを見てもらうことが可能となる。地域認識クロール設定は、次のいずれかの方法でクロールされた場合に有効となる。

地域分散クロール（Geo-distributed crawling）：米国外からと判定されるIPアドレスを用いて Googlebot が地域対応サイトをクロールするアプローチ

言語依存クロール（Language-dependent crawling）：HTTPヘッダーに設定された Accept-Languageフィールドを使用してクロールするアプローチ

つまり、世界各国版（のIPアドレスを利用する）Googlebot を使うことにより、IPアドレスを条件としてコンテンツを切り替えるタイプのWebサイトのクローリングに対応し、Accept-Language HTTPリクエストヘッダーを使うことで、使用言語設定情報に基づいてコンテンツを切り替えるタイプのWebサイトのクローリングに対応するということだ。

地域分散クロールは、世界各国のIPアドレスを持った Googlebot がクロールを開始することを意味するが、ユーザーと同等に扱うことが基本だ。例えば、フランスからの来訪者の扱いと、フランスからの Googlebot の扱いは同じにしなければならない。ユーザー（人）はアクセス元地域にあわせてコンテンツを切り替えているのに、Googlebot はどこの国からやってこようと特定国のコンテンツを見せたり、SEO的に最適化された専用ページを見せるといった手法は NG となる。ここは従来からのベストプラクティス通り「ユーザーとクローラを差別しない」というルールに従って処理をすると良い。

ちなみに、どの国の Googlebot であっても User-Agent は Googlebot で共通となるが、国別にGooglebotが使うIPアドレスは公開されていない。もし来訪した Googlebot を確認したい場合は、DNSリバースルックアップを利用すると良い。

言語依存クロールは、Google が地域対応ページと認識した時に、異なる Accept-Language HTTP ヘッダーを使って複数のコンテンツを読み込むとのことだ。Webサイトがサポートしている言語一覧がページ上でわかるようになっているなどの対応が行われていれば良さそうだ。

ローカル・アダプティブの判断方法

地域別コンテンツ提供の判断は、様々な情報（ヒントやシグナル）に基づいて自動的に判定され、地域認識クロールが行われるが、具体的なヒントやシグナルについては特に言及されていない。いずれにせよ Google が自動的に認識するので、ウェブマスター側が特に設定を行う必要はない。

1月28日現在、Googleウェブマスターツールに関連する項目は用意されていない。

多言語・多地域サイトはrel=alternate hreflang アノテーションを使用するという原則は変わらず

Google は地域対応ページのインデクシングを改善するために地域認識クロールという新しいアプローチを導入したものの、多言語・多地域サイトの SEO（検索エンジンフレンドリーなサイトを作る）における原則は地域毎に別々のURL設定を使用すると共に、rel=alternate hreflang アノテーションを使うことである点に注意して欲しい。

cf. Google rel=alternate hreflang=x サポートを拡張、多言語サイトを適切にインデックス可能に

これは言語が異なれば異なるURL（ドメイン）で公開されていた方が、インデックス登録やランク付けは無論、コンテンツの共有やコンテンツを通じた交流が世界中の人々と行われやすくなることで、最終的にコンテンツの発見性も最大限に高めることができるためだ。

情報の露出度・発見性を最大限に高めるという観点からも、引き続き国・地域別に対応した ccTLD を用いたドメインを使う、あるいは異なるURLを用いたり、異なる言語のウェブページを hreflang アノテーションにより関連性を明示するといった方法がベストプラクティスであることを理解しておこう。

解説

多言語・多地域サイトを運営していて、同じURLに異なるコンテンツを来訪者の条件に基づいて言語を切替表示している場合が該当しますので、関係ない人には全然関係ないお話です。

既に rel=alternate hreflang を導入して言語アノテーションを設定しているのであれば、そのまま継続利用して構いません。Google の推奨は、あくまで言語が異なるコンテンツは異なるローカルURL（ccTLD 国別ドメインを使用する等）を用いて、rel=alternate hreflang で関係性を明示することだからです。

Googlebot による地域認識クロール

https://support.google.com/webmasters/answer/6144055?hl=ja

Googlebot の確認

https://support.google.com/webmasters/answer/80553?hl=ja

Crawling and indexing of locale-adaptive pages

http://googlewebmastercentral.blogspot.jp/2015/01/crawling-and-indexing-of-locale.html

地域対応ページのクロールとインデックス登録 [Googleウェブマスター向け公式ブログ]

http://googlewebmastercentral-ja.blogspot.jp/2015/01/crawling-and-indexing-of-locale.html