SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

管理者以外の人間がロボット型検索エンジンに登録申請するのはOK?

「検索エンジンにガンガンヒットするホームページの作り方」読みました。とても参考になりました。ところで1点質問があります。本書の中のリンク対策で「登録されていないページを検索エンジンに登録してしまいましょう」という箇所がありますが、これは各検索エンジンに、そのサイトの管理者でない人間が登録してしまう?という意味でしょうか?

(質問者:読者の方)

今回取り上げた質問は、書籍を購入して頂いた方から何名かいらっしゃいましたのでこちらで取り上げてみます。

(書籍購入者向けの回答になりますので、上記質問内容自体の詳細説明はここでは省略させて頂きます。書籍の方をご覧下さい)

 まず単刀直入な答えとしては、文字通り「Webページ管理者でない人間が検索エンジンに登録をしてしまう」その通りです。

 ただし、

 この質問をされた方の意図としては、「Webサイト管理者でない人間が検索エンジンに登録をしてもよいのか?」という疑問を持たれているかと思います。この部分に対する回答をします。

 なお、ここから先は、全て「ロボット型検索エンジン」(クローラーベースの検索エンジン)の場合を想定しての回答です。具体的には Google、infoseek、goo、AllTheWeb です。その他の検索エンジン(ディレクトリー型検索エンジンやメタ検索エンジン)は話が異なりますので、これらは別問題として下さい。

 あくまでロボット型検索エンジンのお話です。

 最初に結論を述べます。

 

結論:

(I) ロボット型検索エンジンにおいては、Webページの登録申請を誰がやろうと関係ない。仮に誰も登録申請しなくてもクローラーは拾っていく。

(II) クローラーは勝手にWebページを収集していくので、もし登録されたくなければWebサイト管理者がクローラーに対する制限をかけるべし

 ということです。では以下、詳細な解説を行います。

 さて、まず回答をする前にロボット型検索エンジンのウェブページ収集及びインデックスに関する方針についてお話をしましょう。

 ロボット型検索エンジンの技術開発における1つの目標として、ディレクトリー型検索エンジンの弱点を補うこと、という点があります。具体的には、1つ1つの情報を人間の目によって判断しディレクトリーに掲載するというディレクトリー型検索エンジンが持つ、「無数のWebページをすべて包括する事ができない」という制約条件をクリアするために、ロボット型検索エンジンはクローラーというWebページ収集ロボットを使って大量のWebページをインデックスすることに努めるわけです。クローラーは24時間自動的に稼働しネット上に存在する「リンク」という経路を辿って際限なくWebページを収集することを可能にします。これによってディレクトリー型検索エンジンには実現不可能な事を達成するわけです。

 このWebページ収集及びインデックスのプロセスにおいて、ロボット型検索エンジンは個々のWebページについてそれの管理者に許可を得た上でWebページの収集及び登録を行っているわけではありません。登録するか否か、その決定基準は(1)情報データベースとしてのクオリティ保持の可否 (2) Webページ自身に加えられている制限事項の有無 です。

 (1) というのは、取得対象とするWebページをインデックスに加える事が膨大な情報データベースとしてのクオリティ向上に貢献するか否かという事です。もし登録をすることによって情報データベースとして何らかの問題が発生する、あるいは技術的にインデックスに含む事が困難である場合には登録を行わない、ということです。

 わかりやすくいえば、.php や .asp、.jsp といったダイナミックページは”スパイダートラップ”に陥る危険性があるから登録をしない、異なるURL上に質的・量的に同一のWebページが存在する為にインデックスから排除するといった行為です。

 (2) は、該当のWebページ保有者によって加えられたと思われる、そのページに対するクローラーへのアクセス制限が設けられている場合です。この制限とは meta タグによるクローラーの行動制限や、.htaccess による制限を指します。

 これらの処理が行われている場合、該当Webページ管理者は明確に登録拒否の意志を表明している為、クローラーはそれに従って登録を行わないわけです。

 上記(1) または (2) が成立しない限り、クローラーはWebページ情報を可能な限り収集していきます。より多くのWebページを収集し膨大なインデックスを作成し、検索サービス利用者が探し求める全ての検索クエリーに対して答えられる質的・量的に優れた情報データベースを作成することが検索エンジン会社としての使命であり、またそれが検索サービス利用者の利益になると考えるからです。

 (1) と (2) いずれの基準も満たしている限りクローラーはWebページを収集、登録するということです。そのWebサイト保有者の意志については、「拒否する」ということが明示されていない限り(.htaccess または meta タグなど指定する登録拒否手段を講じていない限り)登録をするということです。それらの措置が行われていない限り、登録する主体はクローラーによる自動登録(リンクを巡回する事でWebページを収集していく技術)であろうと、人間であろうと関係はないわけです。

 これを踏まえて本の話に戻りましょう。本のお話では、登録されていないけれども自分のWebサイトに対してリンクを張っているWebページをリストアップして、それを一覧にした上で登録するというお話でした。

 妥当性の根拠1つ目。ロボット型検索エンジンの場合は誰が登録申請(クローラーに収集させる命令)を行っても関係がありませんので、よいわけです。

 2つ目。ここでリストアップされたWebページは、(Google / infoseek / goo / NAVER / AllTheWeb のうち少なくとも)いずれか1つには既に登録されているWebページです。ここでリストアップするWebページは、全てのロボット型検索エンジンのバックワードリンクを調査して調べた結果ですので、いずれにも登録されていないWebページがリストアップされることはありえません。少なくとも1つのロボット型検索エンジンに登録されているのですから、他のロボット型検索エンジンにも登録される事自体に不具合はないだろうと推定できます。そもそも検索エンジンに登録されたくないのであれば既に meta タグや .htaccess によるクローラー制御を行っているはずです。

 3つ目。もしあなたが登録を行わなくても、いつかクローラーがそのサイトを訪れてWebページを収集していくでしょう。なぜならリストアップされたWebページは全て少なくとも1つのクローラーによって巡回されているのですから、いつの日か他のクローラーもそれを発見して登録していくことでしょう。ですので「管理者ではないあなたが登録申請を仮に行わなかったとしても」クローラーがそれを行います。

 以上が妥当性の根拠とされる理由です。それでもまだ、「少なくともWebサイト管理者の許可を得ていないではないか」と思われるかもしれません。しかしそれは既にクローラーの行動によって侵害されている事項です。また、一般的にWebで世界の人々に対して公開されているページがクローラーによりインデックスされることによって生じる不利益というものはないものです。もちろん個人情報が記述されたページやクレジットカード情報のページが収集されたら困るでしょうが、それはサーバー管理者のセキュリティー対策の問題であって検索エンジンやクローラーの問題ではありません。

ということですね。

それでは検索エンジン対策がんばってください。

渡辺 隆広 

COPYRIGHT © 1997-2020 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。