少なくとも昨年末時点で、Googleは日本語文字列の処理を大きく改善し、Yahoo!やMSN / Live Search、百度など他の日本語検索エンジンが実現できていない(Ask.jpがやってました)ことをしています。それが略語や英文字(英語表記)のキーワードを入力した時の処理方法です。
上記の表は、検索キーワードで検索した時に、検索結果でボールド表示(太字)される文字列を表したものです。例えば、「ファミマ」と検索した時に、Googleは検索結果ページに「ファミマ」「ファミリーマート」どちらもボールド表示します。検索結果にヒットしたページも、その他の要素(被リンク、アンカーテキスト、周辺テキスト)の影響によるものではないと考えられるものが多数含まれます。対して、Yahoo!などは、入力したキーワードそれ自体を含むページしか検索対象になっていません。もちろん、バックリンクやその他諸々の調整により、結果として「ファミマ」と検索しても意図される「ファミリーマート」は検索できます。
表に入れていませんが、他にも「mcafee」と「マカフィー」、「RSS feed」と「RSSフィード」、「スタバ」「スターバックス」、「samsung」「サムスン」、「cyberagent」「サイバーエージェント」なども同じ言葉として認識されているようです。
ただし、「gucci」と検索しても「グッチ」を、「PRADA」と検索しても「プラダ」を検索対象に含めていません。「Hermès」で「エルメス」、「doutor」で「ドトール」はボールド表示にならない、同じ言葉としての認識はしていません。
※ ここまでの段落、一部説明が不適当だったため、修正を加えてました
ファミリーマートなどのような社名やブランド、ナビゲーショナルクエリであればリンク分析を通じて目的サイトを検索結果に表示できるはずですが、そうではないクエリ(トランザクショナルなど)やミドル~テールのキーワードになってくると、こうした表記の違いで検索結果が大きく変わることは、時としてユーザーの検索負荷に影響を与えます。特に英文字とカタカナのどちらで入力した方が目的の情報にたどり着けるのか迷うような時、こうした関係する文字を同じように処理してくれる方が、検索意図を適切に反映できるでしょう。
ちなみに米国Googleでは、2003年4月28日に買収したApplied Semanticsが保有していたCIRCA技術を活用することで、例えば「payment」を「finance」と同じ意味を持つとみなして検索対象に含む、といったことを2003年末以降に実施していました(ちょうどGoogleアルゴリズムに大きな変更が加えられて騒がれていた頃です)。
一般に海外の検索会社は日本語処理能力がYahoo!JAPANに劣ると思われがちですが、現実にはGoogleもかなり日本語固有の問題にも対処しつつあります。
#
[追記] はてなブックマークのコメント欄にて「Ask.jpが対応してる」という指摘がありました。そういわれてみれば確かにやってましたよね、sony → ソニーなど。すみませんこのコラムを書いている時、Ask.jpの存在を忘れてました。
[追記2] 文字列判定の方法の違いについてまとめています。判定方法は、検索結果画面中におけるボールド表示となる言葉です。表記が違っても検索結果が全く一緒になるというわけではありません。また、検索結果の良し悪しでいえば、(他のすべての要素を計算してランク付けされた)結果としてYahoo!やその他検索エンジンの方が関連性が高いといえる場合もあります。つまり言語の処理の方法だけ変えても検索精度が良くなるわけでもないです。