先日紹介した、Yahoo! Slurp - Yahoo!'s Web Robot のページですが、簡単に FAQ 形式で(適当に)日本語にしてみます。重要なところは適宜コメントつけています。
Q) なぜ Yahoo! クローラーは私のサイトに来るの?
A) Yahoo! Slurp はページ検索インデックスを作成するためのロボット。世界中のWebページを集めて検索可能なインデックスを作り、Yahoo!サーチで利用できるようにするのだよ。
Q) Yahoo! Slurp に来ないで欲しい。インデックスさせない方法は?
A) 次の記述を robots.txt にどうぞ
User-agent: Slurp
Disallow: /cgi-bin/
Q) Yahoo! Slurp のリクエスト数を減らして
A) 複数の Yahoo! Slurp を使ってクロールするので、様々なIPからのYahoo! SlurpがあなたのWebサイトに訪れてしまいます。
クローラーに対してリクエスト数のリミットを設けたいなら例えば
User-agent: Slurp
Crawl-delay: 20
と記述してね。20 は20秒毎をさします。
Q) Yahoo! Slurp にキャッシュさせない方法は?
A) <META NAME="robots" CONTENT="noarchive"> と記述してね
# SEOルートディレクトリ で Yahoo!JAPAN がキャッシュを導入したことに関する考察 がありましたが、米Yahoo! は引き続き Inktomiベースでもキャッシュを提供するようですね。ということは、Yahoo!JAPAN のキャッシュ導入は将来のための布石だったのですね。将来 Inktomi で(Yahoo!JAPAN が Inktomi にするか知りませんが)キャッシュを提供するならとりあえず現時点でも Google 使って提供しておこうといったところでしょうか。
Q) 動的ページはクロールする?
A) するよ
# 動的ページを適切にクロールさせる方法についての記述があります。
If your web site is based on dynamic links and you want your site to appear in our search engine, one approach is to have some static pages which have links to your dynamic pages. Some static pages can provide information about your web site and services, others can provide indices or directories into your site.
静的ページから動的ページにリンクを張れ、と。従来通りです。
Q) Yahoo!Slurp はどうやってページ見つけるの?
A) HREF を辿ります。SRC は読みません。
# SRC を読まないのでフレーム使っている方は注意。
Yahoo! Slurp follows HREF links. It does not follow SRC links. This means that Yahoo! Slurp does not retrieve or index individual frames referred to by SRC links.
ref.