SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

Google、サイトマップページ形式はXMLとRSS/Atomフィードの両方を推奨

米Google は2014年10月16日、「Best practices for XML sitemaps & RSS/Atom feeds」と題する記事を公開し、検索エンジンのクローリングを手助けする役割を持つサイトマップページの作成についてのアドバイスに言及した。

サイトマップページとは

サイトマップページとは、サイト内のウェブページ一覧を記したファイルのことで、Bing や Google などが稼働させるウェブクローラが効率的にサイト内のページを巡回・索引化していくことを支援する。ウェブ制作やユーザビリティの文脈でいう(ユーザーのための)サイトマップのことではなく、検索エンジンにサイトのページ構成を伝えるファイルのことを指してサイトマップページと呼ぶ。混同を避けるために便宜上XMLサイトマップと呼ぶ場合もある。

※おことわり:SEMリサーチ上の過去の記事では混同を避けるためにサイトマップページを便宜上XMLサイトマップと表記していますが、本記事はフォーマットの違いそのものが話題であることから(形式そのものを区別するために)「XMLサイトマップ」と「RSS/Atomフィード」の用語を用いています

XMLサイトマップとRSS/Atomフィードの形式の違いと役割

Google に送信するサイトマップページは、「XMLサイトマップ」と「RSS/Atomフィード」のどちらの種類・形式で記述することも可能だが、前者はサイト内の全てのURLを記述するものに対して、後者はサイト内の最近変更されたURLを記述するものである。

つまり、XMLサイトマップはサイト内の全てのURLを記述するため大きなファイルになるのに対して、最近の変更箇所を中心に記述RSS/Atomフィードは小さなファイルになる。また、サイト全体のページを記述することを目的としたXMLサイトマップがダウンロードされる頻度は、最近のアップデート内容を記述することを目的としたRSS/Atomフィードと比べると少なくなるということだ。

XMLサイトマップとRSS/Atomフィードの併用を推奨

両者にはこうした性格の違いがあることから、Google はクローラビリティの観点から両方の形式のファイルを扱うことを推奨している。本記事を個人の Google+アカウントで紹介している同社の John Mueller氏や Pierre Far氏も、両者を併用することを薦めている。

Google は記述時の注意事項として (1) サイトマップページに含める URL は Googlebot (あるいは Bingbot)がクロール許可されている URL のみにすること、(2) 正規化するURLのみを一覧に含めること、という2点を挙げている。

1点目は、例えば robots.txt ではクロールを拒否しているディレクトリやファイルをサイトマップページに記述しても意味がないという例を挙げている。同様に、404 Not Found の URLを含めても仕方がないので、サイトマップページのファイル作成時には URL が全て存在しクロールを希望する URL がリスト化されるように注意しなければならない。2点目は、例えば重複ページ(コンテンツ)の問題を解決するためにrel=canonical(カノニカル)を使用して URLを正規化する(≒ 内容が重複した URL のうち、Google がインデックスすべき URL がどれなのかを明示する)ことがあるが、サイトマップページにはその正規化する(インデックスさせたい)ページの URL のみを記述するとよい。

その他、原文では XMLサイトマップやRSS/Atomフィードの更新頻度やファイルに含めることが可能なURL数などについても言及しているので、興味のある方は参考にしてほしい(近日中に日本語翻訳版が公開される可能性が高いので、英語が苦手な方は日本語版を待つと良い)。

サイトマップ ページでサイトマップを管理する

https://support.google.com/webmasters/answer/183669?hl=ja

Best practices for XML sitemaps & RSS/Atom feeds

http://googlewebmastercentral.blogspot.jp/2014/10/best-practices-for-xml-sitemaps-rssatom.html

#

ユーザー向けに RSSフィードを提供しているサイトは、ウェブクローラー向けのサイトマップページとして XMLサイトマップを追加すればいいだけの話なので、それほど導入を阻む要素はない気がします

COPYRIGHT © 1997-2021 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

お問い合わせ(お仕事の相談、講演依頼など)

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。