グーグル日本版(google.co.jp)がリアルタイム検索を開始したことを確認した。2月9日時点で、google.comが日本語キーワードのリアルタイム検索に対応していたことをお伝えしたが、google.co.jp も対応した。日本語で数秒前~数分前のブログやニュース、Twitterのつぶやきを検索できる。
Google、日本語のリアルタイム検索に対応
2月12日午前5時30分時点で、"google buzz"など、その時点で話題となっているキーワードで検索すると、検索結果画面上に「○○の最新の検索結果」という枠が表示され、最新のTwitterのつぶやきが表示される。同枠は自動的にスクロールして、数分前のつぶやきをライブアップデート表示する。
また、検索の絞り込みを行う検索ツール上にも「最新」の項目が現れた。最新を選択すると、Twitter上のキーワードと関連するつぶやきやブログ、ニュースコンテンツを検索できる。ウェブ検索同様に、最新のつぶやきを発見すると自動的にリアルタイム更新される。
Googleリアルタイム検索は基本的に最新のつぶやきをリアルタイム表示するものの、単純にキーワードを含むつぶやきを含めているのではなく、フォロー数や投稿主の判定(人間/bot)、つぶやきに含まれるリンクの有無などいくつかの検索技術を組み合わせて検索結果に表示すべきものやその順序を決定している。
Googleは2009年10月にTwitterと提携しており、Bing同様にFirehoseを利用してリアルタイム性の高いデータにアクセスして検索を実現している。同年12月に米国でリアルタイム検索の試験運用を開始していた。
ことば:リアルタイム検索とは
リアルタイム検索とは、数秒~数分内にウェブに公開された情報を検索する技術。特にTwitterなど、いま起きている出来事についてリアルタイムに情報が交わされるストリームウェブをリアルタイムに検索できる技術を指すことが多い。
通常のウェブ検索は、サイトによって検索結果への反映が数分~数日とタイムラグがあるのに対して、リアルタイム検索は文字通り、「いま」を検索できることから、出来事やイベントに対するユーザの感想や、いま閲覧されているウェブページなどを知ることができる利点がある。
ただし、リアルタイム検索は、投稿された内容のaurhority(重要度や信頼度)を的確に判定する術が確立されておらず、利用者数の増加につれて検索精度をどのように改善するかが課題となっている。
#
言語問わずリアルタイム検索は、他人にとってどうでもいい、つぶやきがたくさん流れていく中を、スパムやノイズを除外してどうやって検索の品質を維持していくのかが気になります。フォロー数(フォロワー数)は簡単に偽装できるわけで、どうやって発言の重要性や信頼性を判定する精度を高めていくのか。現時点のグーグルの(リアルタイム検索の)アルゴリズムを観察する限り、簡単にスパムリンクで埋め尽くすことも可能、というか、すでに一部のキーワードは(Twitterを狙っているスパムによって)検索結果もおかしなものになっています。ビジネス的にも、コマーシャル系クエリが少ないですし。