SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

Googleの検索技術 - PageRankとは?

かつてSEOをする上で必ず理解が必要であったGoogle PageRank。しかし、Googleツールバーで表示されるPageRankデータが使い物にならなくなった今日において、必ずしも知っておくべき事項ではなくなりました。しかし、最低限のしくみと、「なぜ、使い物にならなくなったのか」は知っておいて損はありませんので、「PageRankの変遷」について説明をします。

Google PageRankとは?

米調査会社・Nielsen Onlineによると2007年12月の米国検索シェアはGoogleが56.3%と、2位のYahoo!、17.7%に大差をつけて圧倒的首位に立っています。世界で見ても、「1位 Google 62.4%、2位 Yahoo! 12.8%」(米comScore 2007年12月調査)とGoogleが検索市場を支配しています。

Googleは創業以来、その検索精度の高さから瞬く間に多くのユーザーの支持を得て、大手ポータルサイトに採用され、現在の地位を築いています。このGoogleの人気を広めるきっかけとなったともいえる検索技術、それがウェブのリンク構造を分析することによってページの重要度を判定するという「PageRank(ページランク)」というしくみです。

リンクを「支持投票」と考える

私たちがブラウザを通じて、マウスのクリックだけで様々な情報にアクセスしていけるのは、ウェブページが皆、ハイパーリンクによって結ばれているからです。GoogleのPageRankは、世界中の数百億にも及ぶウェブページが相互に何らかの関係に基づいてリンクで結ばれている点に着目しました。具体的には、Googleはページから張られるリンクを「支持投票」とみなします。例えば、ウェブページAがウェブページBにリンクを張った時、ページBはページAに指示されたとして、ページBに加点をします。加点の高いページはより重要なサイトと判断するのです。

ウェブサイト運営者が別のサイト(ページ)にリンクを張るとき、それは訪問者に対してそのリンク先ページを「参照」「推薦」「紹介」「関連」といった意味を込めていると考えられます。なぜなら、自分の嫌いなページや、全く自分のサイトと関係のないページにリンクを張ることは通常あり得ないからです。

別の見方をすれば、多くのウェブからリンクをもらっているサイトは、多くの人から紹介されているので内容がとてもよい、価値のある情報を提供しているウェブだと推定することができます。これは「良く引用される論文は良い論文」、つまり優れた論文ほど、他の研究者にも良く引用されるという考えをウェブのリンクと置き換えたものです。

Googleはこのリンクが張られる特性に着目して、検索技術に応用したのです。

ページ外要因は検索精度を飛躍的に高めた

PageRankは当時、検索精度の革新的改善に大きく貢献しました。

Google登場以前の検索エンジンは、検索順位を決める際に、個々のウェブページにおける内部要因(ページ内要因、on-page factors)に頼っていました。ページ内要因とは、例えばタグ内の文字列やページ内に登場するキーワードの回数、頻度、位置、キーワードにマークアップされた強調タグやフォントの大きさ、キーワード前後に出現する単語など、ページ内に存在する各種要素です。これらを一定の評価基準(アルゴリズム)に従って計算・点数化することで、ページの重要度やキーワードとの関連性を判定して順位を決定していました。

これに対してPageRankは、ウェブページに張られている「外からのリンク」というウェブページ外の要因 - ページ外要因(off-page factors)を加味してウェブページの重要性を判断しています。従来のページ内要因に加えて、PageRankというページ外要因を組み合わせることで、検索精度を飛躍的に高めることに成功したのです。

なぜ、ページ外要因を追加することで飛躍的な改良が実現したのでしょうか?

不正な行為を防ぐ役割を果たす

ページ外要因をページ順位付けの評価に加味することは、とても意義のあることでした。なぜなら、ページ内要因はすべて、ウェブサイト運営者によって自由に操作することが可能なため、悪意あるサイト運営者が検索順位を上げようとキーワードの出現回数を意図的に増やしたりすることで検索エンジンによる評価を騙す(歪める)ことが簡単だったのです。

実際、1998年前後の時代は、著名なブランドや会社名で検索しても検索結果はアダルトやギャンブルサイトが独占している状況でした。

対してページ外要因は、サイト運営者では操作することが基本的に不可能な要素のため、検索エンジンを騙す行為がしづらいのです。また、価値のある情報、多くのユーザーに支持されているサイトは自然とリンクが増加していきますし、これらは不特定多数のリンクによる評価ですので、情報の価値についての客観性が保たれています。このため、ユーザーの入力する検索キーワードに対して適合したページをユーザーの目に留まる上位に配置させることができたのです。

Googleが登場した当時、クチコミで急速に広まっていったのは、企業名やブランドで検索した時に、該当公式サイトが1位に表示されたこと、ちょっとニッチな情報を検索してもピタリと合致したページを検索結果に表示できるなど、2008年現在では「当たり前」のことですが登場当時は極めて画期的だったのです。

10年が経過した今、PageRankの役割は

なお、PageRankのしくみは発表当初こそ画期的でしたが、そのしくみについて理解が広まる一方、社会におけるネットや検索エンジンの位置づけ、重要性の高まりにより、アルゴリズムの欠陥をつく世界中の悪意あるサイト運営者によって、効果的にページの重要度を判定することが次第に困難になっていきました。

これに対抗する形で、GoogleもPageRankの仕組みを発展させ、重要性に加えて信頼性(TrustRank)の評価や、時間の評価(エイジングフィルタ)リンクの関連性など、多数の評価基準を加えて検索品質の維持・向上に努めています。

Google PageRankを確認する

PageRankはページの重要度を判断しランク付けするためのしくみです。Googleは個々のページに張られたリンクを分析して計算をして、点数(スコア)をつけます。このページに与えられた正確な点数を私たちは知ることができませんが、10段階で表した場合の数字は確認することができます。

それは、Googleが無料で提供しているGoogleツールバーをPCにインストールすることで実現します。GoogleツールバーはWindows、Mac それぞれのInternet Explorer、Firefoxに対応しています。

このツールバーをインストールしてからウェブページにアクセスすると、緑色のバーが変化します。マウスカーソルをこの上に持ってくると、PageRankの値を確認できます。なお、このツールバーで私たちが知ることができるPageRankは「ただの参考値」に過ぎず、とりわけSEOを考える上でほとんど役に立ちません。

理由は次の通りです。

10段階で表したものに過ぎません

リンク構造を分析して、Googleが個々のページに与えたPageRankの正確な数値はわかりません。あくまで10段階の対数目盛りで表した場合の数値です。たとえPageRankが「5」だと表示されても、それは4に限りなく近い5かも知れませんし、6に限りなく近い5かも知れません。これでは評価する意味がありません。

PageRankで順位は決まりません

PageRankは数百もの数で構成されるアルゴリズムの1つにしか過ぎません。PageRankの値でランク付けが決まっているわけではありません。検索キーワードとページの適合性など他の様々な要因を総合的に判断して決めています。もし、PageRankの値だけで順位の大半が決まってしまうのであれば、あらゆる検索キーワードでGoogleやYahoo!のサイトが1位に表示されてしまいます。

確認できるPageRankの値は過去のものです

私たちが確認できる、Googleツールバー(以下、単にツールバーと表記します)に表示されるPageRankデータは常に更新されているわけではありません。2008年1月現在、Googleはこのデータを年に数回しか更新しないのです。

Googleのシステム内部では、実はPageRankデータの更新を頻繁に行っています。おおよそ2週間前後のインターバルで更新されていると推定されます。しかし私たちは、そのシステム内部で更新されたデータを知ることはできません。確認できるものは「年に数回しか更新されないツールバー上のPageRank」です。つまり、いま皆さんが目にするデータはとても古い情報であり、現在のSEO施策を考える上で信用するには物足りません。

更新直後のツールバー上のPageRankも、過去のものです

年に数回更新されるツールバーで確認できるPageRankですが、例えば今日、それが更新されたとしてもそのデータは過去のある時点のデータを反映しただけであり、また、その更新データは既に今日の検索ランキングに加味されています。つまり、今日更新されて数値が変化したツールバー上のPageRankそのものが、もう役に立たないのです。

(ツールバーの)PageRankは無用の長物

話をまとめますと、PageRankはページの順位付けを決定する単なる1要素に過ぎない上に、私たちが視認できるデータは常に過去の古いものであるため、情報として参考にできないのです。同じPageRankでも、いま、その時点で目にするランキングの基準になっている"PageRankの値"は目安すら知ることができないのです。

筆者は、SEOを行う上でPageRankの値をほとんど意識しませんし、本書でも他の章でPageRankについて触れていません。しかしながら、SEOに興味を持って勉強をするであろう初心者の方であれば必ずPageRankという言葉に触れると思いますので、正しい理解をしてもらうためにPageRankの説明をしています。

しかしSEOを考える上で"PageRank"のことは以上述べた理由の通り、考える必要はありません。よく「今までPageRankが4だったのに3に下がってしまいました、どうしてですか?」といった質問を受けるのですが、別に気にする必要はありません。PageRank 1 と 5 と 10 くらいの大雑把な数値で判断する分には問題ありませんが、プラスマイナス1~2は"誤算の範囲内"です。あまり神経質になるのはやめましょう。

同様に、PageRankを獲得するために、あといくつのリンクが必要、なんていう計算式や表を提示しているサイトもありますが、これらも無意味です。こうした、あたかも統計的にPageRankを計算しているサイトというのは、その計算式を1998年に公開された論文に依拠しています。しかし、これらは先に述べたように「過去のもの」であり、今日のGoogleがこの通りにPageRankの計算をしているわけではありません。こんなものに惑わされて時間を潰すのは非常に惜しいことです。気にすることはやめましょう。

COPYRIGHT © 1997-2021 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

お問い合わせ(お仕事の相談、講演依頼など)

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。