独立行政法人情報通信研究機構(NICT)と沖電気工業株式会社は2005年7月21日、Webページから新語を獲得して属性を判別する技術を共同開発したと発表した。
インターネット検索エンジンを利用して検索や抽出を行う際、対象となる文書中のテキストの解析が必要になりますが、辞書に登録されていない新語が含まれると適切に解析が行えないことがある。しかし今日のインターネット上では日々新語が生み出されているため、これが検索や抽出の精度を下げる原因となっている。
両者が開発した技術は、収集した大量のWebページに対して形態素解析を行い、文中の形態素列の頻度と、その前後の形態素の異なり数とを指標とした関数を用いて新語の判定を行い用語を獲得する。さらに固有表現抽出※3や既存辞書とのマッチングを行って用語を構成する形態素に素性を割り当て、その情報を利用して用語全体の属性を判別していく。
従来は容易に追加することができなかった最新用語を、高速でWebページから獲得・判別することが可能となり、インターネットユーザが新語をリアルタイムで検索できるようになるという。例えば、大学や企業のWebページから獲得した技術用語を継続的にシステムに反映することにより、ユーザが探している最新技術の名称を常に正しく検索・提示することができるため、最新用語による情報収集、および技術探索への効果が期待される。
独立行政法人情報通信研究機構(NICT)