SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

SEO:記事見出しへのハイパーリンクはクロールに問題が発生する可能性あり

Googleニュース検索はニュースソース取得対象サイトのクロール時に、ヘッドライン(記事タイトル)の特定やディレクトリ及びページ単位の巡回・取得範囲の判断を行うなど、ファインダビリティ最大化の観点から検索エンジン最適化を行う際に特別に注意すべき点がいくつかある。そんな中、Google社員が公式ヘルプフォーラムにて、ハイパーリンク付きの記事見出しについてアドバイスをしている。

GoogleニュースチームのHarvey P.氏によると、ニュース検索用クローラは記事見出しにハイパーリンクが付与された記事ページはクロールが難しい場合があるという。一般的に、当該ページへのリンクを付与したハイパーリンクをページタイトルにつけているニュースサイトやブログサイトは多いが、とりわけヘッドラインを特定する必要*1があるニュース検索においては、もし問題が発生しているならハイパーリンクを取り除くという対処方法も検討して良さそうだ。

同様に、ページのタイトル要素に記述した記事見出しと、ページ本文中に記述した記事見出しが一致していない場合もクロール時に問題が発生する可能性がある*1ため、クローラに適切なタイトルを伝達するために両者は一致させておくことが望ましい。

なお、Harvey P.氏はあわせて、掲載したニュース記事の日付についても言及している。クローラが認識したニュース記事の日付が2日以上経過している場合、Googleはニュース検索にインデックスしない場合があるという*2。このため、記事見出しと記事本文の間に、記事日付・日時を記載することを推奨している。また、ニュース検索用にXMLサイトマップを用意している場合、 が必須となる。

Troubleshooting: Article date

http://www.google.com/support/news_pub/bin/answer.py?hl=en&answer=70871

Google news is not picking up news from our website www.shanzai.com. The frequency has reduced now. Early a good number

http://www.google.com/support/forum/p/news/thread?tid=6c32001921e0c000&hl=en

#

同じSEOでも、通常のウェブ検索の最適化と、ニュース検索の最適化は細部で異なります。前者は無数の情報に溢れたウェブ、数多くのブラックハットSEOを駆使する輩がいる中でキーワードと関連性が高いページを探さなければいけませんが、後者はクロール対象サイトは相対的に限定されていますし、相対的にスパムを実行する人は少ないです(ゼロではありませんが、ウェブ検索に比べれば遙かにマシ)。目的や技術要件が異なりますので、最適化のためのアプローチも少々変わるわけです。以前もニュース検索絡みの記事で書いたかも知れませんが、"SEOに詳しい"というコンサルタントやSEO会社にニュース検索について尋ねても適切な回答は得られない場合がありますので、第三者にアドバイスを求める場合はご注意ください。

その他、いくつか注意事項を。

1. この話はGoogleニュース検索のSEOに関するお話です。通常のウェブ検索には関係ありません。本件をもとにあれこれウェブ検索の世界で邪推することも時間の無駄です。理由は先に書いた通り、ウェブ検索とニュース検索の世界はルールが異なるからです。

2. *1について。Googleニュース検索を眺めているとわかりますが、単純にHTMLのタイトル要素の文字列をそのまま引っ張っているわけではありません。日本を例にとると、多くの地方新聞社のサイトにはニュース記事ごとにユニークなタイトルを設定していないことは日常茶飯事ですし、さらにページ本文にも適切な(論理的な)マークアップが施されているわけではありません。しかし「ニュース検索エンジン」ですから、適切なヘッドラインを表示することはGoogleにとっても、利用者にとっても、そしてパブリッシャーにとっても非常に重要なことなのです。そこで、Googleニュースはクロール時にページを分析して、その記事コンテンツの適切なタイトルを抽出する必要があるのです。

関連した不具合がよく発見されるのが、プレスリリース配信系サイトです。プレスリリース配信系サイトの多くはGoogleニュース検索のクロール対象になっているにも関わらず、ロクな最適化を行っていないため、適切な見出しやスニペットが表示されないケースが非常に多いです。パンくずリストがそのまま表示されたり、クライアントのプレスリリースなのに見出しが配信サイトの会社名になっていたり、などなど。プレスリリースを配信することの目的や意義を考えれば、もっと情報伝達を円滑化するための手段として検索エンジンの最適化は実行すべきです。

3. *2 について。ニュース記事は、検索時点で最も新鮮な、最新の関連するニュース記事を表示することが使命の1つですから、記事の発行日時を特定して鮮度が落ちた記事は表示しないようにする必要があります。米国版ニュース検索(news.google.com)を見ていると、なぜか1700年発行のニュース記事(!)が表示されたりするのですが、単純に記事発行年数を誤検知したのでしょう。

ちなみに日付問題でよくトラブルを起こしているのが、やはりプレスリリース配信系サイトです。プレスリリースに日付を付与していないのもどうかと思うのですが、フォーマット的になぜか日付が入っていないサイトがあり、そこはニュース検索結果でおかしな表示がされていることがしばしばあります。

ということで、とりわけ日本のプレスリリース配信系サイト、特にGoogleニュース検索の検索対象になっているサイトは、もう少し検索エンジン向けの情報伝達の方法を意識したらいかがでしょうか。

COPYRIGHT © 1997-2020 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。