NTTとNTT-X が ポータルサイト goo にて日本語自然文検索サービス Web Answers の共同実験を開始した。次世代検索システムの実験場「gooラボ」にて利用できる。
Web Answers は、日常用いる自然な表現で知りたい情報を見つけ出せる検索サービス。NTTサイバースペース研究所が開発した。例えば、2008年のオリンピックの開催地はどこかを知りたい時、従来の検索エンジンであれば「2008年」「オリンピック」「開催地」といったように単語を区切って検索ボックスに入力する必要があった。しかし Web Answers であれば「2008年のオリンピックの開催地はどこ?」とそのまま自然な表現で検索ができる。Web Answers はその質問文を解析して適切な回答を表示してくれる。
この自然分検索サービスを可能にする技術のポイントは「質問文のタイプ分類技術」「質問文のタイプ分類技術」そして「Webページ再ランキング技術」の3つ。
質問文のタイプ分類技術は、入力された自然文からそれが何の回答を求めている質問なのかを分類する。例えば「鉄腕アトムの誕生日はいつ?」と質問されたら、これは誕生日の日付を求めている質問だと分類する具合だ。誕生日は他に「生年月日」と表現されるかもしれないが、大規模な日本語語彙の知識ベースである日本語語彙大系を用いて、「誕生日」も「生年月日」も同じ意味として取り扱うことができる。
高速固有表現抽出技術 と Webページ再ランキング技術は、入力された質問からキーワードを選び出して検索結果を取り出した際に、求める情報が上位にランクインされていない時にランキングを並び替える。例えば「鉄腕アトムの誕生日はいつ?」という質問であれば「鉄腕アトム」と「誕生日」がキーワードになるのでこの2つの単語で検索される。この時点で質問は「日付を尋ねる質問」だという分類は行われているので、検索キーワードと日付に関する単語が近接しているWebページを上位に表示する。
この日本語自然文検索 Web Answersの実験は2004年2月5日〜2004年3月31日(予定)まで行われるとのこと。
- -
Internet Watch によると、Web Answers は Google のインデックスを用いているとのことだが、現在は実験なので商用サイトは表示させないようにしているとのこと。また、Google AdWords の表示も検討しているという。
- -
技術的なことはおいておいて、とりあえず実験してみました。
「SEO は何の略語?」と検索すると、Search Engine Optimization を返してきました。
「徳川家康が江戸幕府を開いたのはいつ?」に対しては1603年。
「現在の日本の首相は誰?」だと「小泉純一郎(に違いない」。
「青色LEDを発明したのは誰?」だと「中村修二」。
「綿矢りさは何を受賞した?」だと「芥川賞」
Web Answers、なかなか優秀です。
正しい答えがなかった時は、回答候補欄の下にあるフォームから正しい回答を送信できるようになっています。
Web Answers - 日本語自然文検索サービス
ポータルサイト「goo」上で日本語自然文検索サービス「Web Answers」の共同実験を開始 [プレスリリース]
[関連]
NTTとNTT-X、gooで日本語自然文検索「Web Answers」の共同実験 [Internet Watch]