複製ページがスパムになるというのをどこかのサイトで見たことがあるのですが、どの程度似通ったページを作るとスパムになるのですか?
(質問者:匿名)
これは、Dupes (複製ページ)スパムと呼ばれるものですが、まず”複製ページスパム”とは何か?という事で言葉の定義をします。
Dupes(複製ページスパム):同一のHTML構造またはコンテンツを有するウェブページが (a): 異なる複数の URL 上に設置されており、且つ (b): (a) の行為を行うに足る合理性が存在しない 場合。
具体例を挙げます。Google ( http://www.google.co.jp/ )で「マイナス検索」というキーワードで検索を行ってみてください。本質的なコンテンツが同一である複数のウェブページが、異なる URL で複数見つかるはずです。これが複製ページスパムと呼ばれるものです※1。
現在の検索エンジンは、任意のキーワードに対する検索結果において、同一ドメインに属するウェブページが検索結果を占拠してしまわないように「クラスタリング」という技術を用いることで同一ドメイン内に属するファイルの表示件数を制限しています。同一の情報源(=同一のURL)から選択させるのではなく、複数の情報源(=異なるURL)から
検索キーワードに適合度の高い、多様なウェブページ情報をユーザーに提供することにより、ユーザーが目的とする情報に到達する確率を高めているわけです※2。
この制約に対して、検索エンジンスパマーが考えた発想が、同一のページを異なるドメイン(URL)に設置することで検索結果画面を占拠してしまおうというものです。同一のウェブページでも異なるURLに設置すれば、先述した「クラスタリング」をかいくぐることができます。もしウェブページを検索エンジンに最適化した上で複数の URL 上に配置すれば検索結果画面を占拠することができ、ユーザーがどれをクリックしても自分自身のWebサイトに誘導する事が可能になります。しかし、このような行為をされたら検索エンジンのクオリティ低下を招きます。情報を探しているユーザーから見れば、同じ内容のページばかり表示されたら迷惑な話ですね。そこで検索エンジン会社は必死にこの迷惑行為を排除しようとしているわけです。
さて、 複製ページスパムは次の2種類に分類されます。それは (1) HTML構造レベルでの同一性、(2) コンテンツにおける質的・量的な同一性 です。
(1) は、全く同一のウェブページを異なる URL に設置した場合を指します。これはに対して検索エンジン会社は、スパム検知システムを用いる事で自動的に複製ページを発見、排除してしまいます。
しかし上記理由であれば、正当な理由で運営されているミラーサイトも排除される恐れがでてきます。ミラーサイトは全く別のサーバーに同一のファイルが設置されるからです。しかし心配はご無用です。この種のスパムを行っているユーザーは、ある特定のWebサイトを上位に表示させたい為に複製ページスパムを行っているのです。つまり、ミラーサイトで設置されたWebサイトは個々に独立した構造を持っており、お互いがそれ自体で完結しています。また、ミラーサイトは「サーバが落ちた時の為に設置されている」のですから双方のWebサイト内の属する個々のページがお互いにリンクを張り合っていることはありえません(その必然性がありえない)。
一方、スパム目的で設置されたファイルは検索結果を占拠すると共にリンクポピュラリティーを向上させる狙いもあります。従って異なる URL に設置されたそれぞれのファイルは全て、ある特定の URL に対してリンクを張っているものです。先ほど例としてあげた事例についてもよーく見てみてください。何かに気がつくはずです。
従って、合法的なミラーサイトと、そうではないサイト(=スパム)は見分けることが可能なのです。
次に (2)。これは HTML構造レベルでは異なるものの、ユーザーに対して与える情報が同一であるものを指します。先ほど挙げた例でいえば、Webデザインを変える(HTML構造を変更する)ことで (1) の規制は回避していますが、掲載されているコンテンツは同一です。従ってこれはコンテンツレベルの複製ページとされます。
(2) については最終的に人間の目で判断しないといけません。もし Google でそういったスパムを見つけた時は通報しましょう。
ちなみに、Google で「マイナス検索」をした場合を例にとりあげましたが、NAVER ( http://www.naver.co.jp/ ) でキーワードを「マイナス検索」として検索すると、きちんと対策がとられていることがわかります。
Google: Search Quality and Your Feedback
http://www.google.com/contact/spamreport.html
※1 理論上、この現象は複製ページスパムである。ただし、現時点で検索結果に表示されているのであるから、ここで挙げた例については (a) Google がこの事象を認識していない、(b) Google はこの例をスパムに該当しないと判断した、(c) Google はこの例をスパムに該当すると判断しているが対策を行っていない のいずれかである。
※2 クラスタリングを行わない検索エンジンもある例えば Zubaken。(例 松阪牛 で検索した結果)。欲しい情報を見つけやすいだろうか?
(回答者: 渡辺 隆広 ACWS Japan SEM アドバイザー)