日本電気株式会社は2007年4月6日、利用者が情報検索時にシステムから提示される検索ルールの中から、検索時の意図に近いもの選択することにより、検索結果を効率的に抽出する技術を開発したと発表した。
開発したのは、「日本語の文書を自動解析し、単語に人名・地名・商品名などの属性を自動的に付与して構造化した文書データに変換する技術」、「構造化した文書データに対して、システムが作成した抽出ルールを適用し、ルールに該当する部分を文書から取り出す技術」、「利用者の簡単な指示から、抽出ルールを絞り込み、利用者の意図を推定して最終的な抽出ルールを作り出す技術」の3つ。
NECによると、例えば従来は不可能であった、単語の使われ方を特定した検索(「新製品」の「発売」に関する検索、など)や、その単語の上位概念も含めた包括的な検索(「歯磨き粉」「口臭消臭剤」「デンタルフロス」といった「オーラルケア製品」の一括検索)など、利用者のイメージに合った柔軟な検索を容易に行うことが可能になるという。
近年、検索技術の重要性が脚光を浴びており、インターネット上だけでなく、企業内ドキュメントの検索やCRMセンタでの利用も進んできています。しかし、現在一般的に普及している文字列検索では、関連文書をまとめて集めることや、ユーザ独自の絞込み指示ができなかったため、検索漏れが多い・不要な情報が多量に集まるという問題がありました。こうした問題を解決するため、概念検索など、単語の意味的な属性を使った検索が登場しています。例えば、「歯磨き粉」には、「オーラルケア製品」、「日用品」、「薬剤」、「衛生用品」、などの属性があり、「オーラルケア製品」という属性を利用すれば、「歯磨き粉」、「口臭消臭剤」などを含む文書を検索することができます。しかし、検索時に利用者が属性を指定する必要があり、属性の種類が多くなると利用者が覚えきれない、的確な属性が何か分からない、といった課題があります。また、指定した単語が持つ全ての属性で検索をかけると、利用者の意図しない文も多量に抽出されてしまうという課題があったため、より的確な検索を簡易に行う技術が求められていました。
このたびの開発した技術は、これらの課題を克服し、利用者がより効率的に情報にアクセスできるようにするものです。利用者が指定した条件をもとに検索システム上で抽出ルールを推定・作成し、適切なルールを利用者が選択することによって絞り込みを行います。この際、抽出ルールが持つ、包含関係や背反関係など、相互の依存関係を計算することで、ルールを絞り込む際の利用者の負担を最小化しています。