たまには検索アルゴリズムそのものを取り扱ってみようと思います。Topic-Sensitive PageRank(トピックセンシティブ ページランク)。Stanford University、Computer Science DepartmentのTaher H. Haveliwalaが考えたものです。
Google の PageRank は皆さんご存じでしょう。インターネット上の各々のWebページの重要性をリンクによって決定する方法で、Google が利用する100以上に及ぶ検索アルゴリズムの1つでもあり重要性の高いものです。この PageRank の考え方を発展させたもの、より適切にWebページの評価を行おうとするアルゴリズムが Topic-Sensitive PageRank です。
"Topic-Sensitive" 、日本語でいうと「トピック反映型」でしょうか、ともかく『トピック』を PageRankスコアの算出に反映させようというのがこのアルゴリズム。PageRank は、リンクによって結ばれる2つのWebページが扱う「トピック」は全く考慮されていません。例えば(他の条件やアルゴリズムは無視した上で)次のA,Bをご覧下さい。
A:Webページ (a)(宇宙航空力学を説明)からWebページ (b) (お花屋さん)へリンク
B:Webページ (c)(お花見を説明)からWebページ (d)(お花見を説明)へリンク
従来の PageRank コンセプトの下では、AのケースもBもケースも全く同様に PageRank のスコア算出を行い、リンクが向かっているターゲットページ、つまり (b) (d) に対して同一のスコアを与えます。これに対して Topic-Sensitive PageRank はリンクの「トピック」を考慮しますので、ケースAのように全く無関係なWebページへの PageRank スコアを下げる一方、ケースBのように関連性のあるWebページへの PageRank スコアは上げましょう、とするわけです。
この論文を読みたい方は次のページをどうぞ。HTML と PDF があります。ちなみに英語ですよ :)
Topic-Sensitive PageRank (HTML版)
Topic-Sensitive PageRank (PDF版)