SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

Webページから新語を自動的に抽出、情報検索の精度向上に

独立行政法人情報通信研究機構(NICT)と沖電気工業株式会社は2005年7月21日、Webページから新語を獲得して属性を判別する技術を共同開発したと発表した。

インターネット検索エンジンを利用して検索や抽出を行う際、対象となる文書中のテキストの解析が必要になりますが、辞書に登録されていない新語が含まれると適切に解析が行えないことがある。しかし今日のインターネット上では日々新語が生み出されているため、これが検索や抽出の精度を下げる原因となっている。

両者が開発した技術は、収集した大量のWebページに対して形態素解析を行い、文中の形態素列の頻度と、その前後の形態素の異なり数とを指標とした関数を用いて新語の判定を行い用語を獲得する。さらに固有表現抽出※3や既存辞書とのマッチングを行って用語を構成する形態素に素性を割り当て、その情報を利用して用語全体の属性を判別していく。

従来は容易に追加することができなかった最新用語を、高速でWebページから獲得・判別することが可能となり、インターネットユーザが新語をリアルタイムで検索できるようになるという。例えば、大学や企業のWebページから獲得した技術用語を継続的にシステムに反映することにより、ユーザが探している最新技術の名称を常に正しく検索・提示することができるため、最新用語による情報収集、および技術探索への効果が期待される。

独立行政法人情報通信研究機構(NICT)

http://www.nict.go.jp/

COPYRIGHT © 1997-2021 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

お問い合わせ(お仕事の相談、講演依頼など)

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。