Webページから新語を自動的に抽出、情報検索の精度向上に

インターネット上に日々登場する新語を自動的に抽出して検索精度の向上に役立てる技術が登場した。


2005年07月29日 11:15 | ニュース 05Q3 | TrackBack (0) |

独立行政法人情報通信研究機構(NICT)と沖電気工業株式会社は2005年7月21日、Webページから新語を獲得して属性を判別する技術を共同開発したと発表した。

インターネット検索エンジンを利用して検索や抽出を行う際、対象となる文書中のテキストの解析が必要になりますが、辞書に登録されていない新語が含まれると適切に解析が行えないことがある。しかし今日のインターネット上では日々新語が生み出されているため、これが検索や抽出の精度を下げる原因となっている。

両者が開発した技術は、収集した大量のWebページに対して形態素解析を行い、文中の形態素列の頻度と、その前後の形態素の異なり数とを指標とした関数を用いて新語の判定を行い用語を獲得する。さらに固有表現抽出※3や既存辞書とのマッチングを行って用語を構成する形態素に素性を割り当て、その情報を利用して用語全体の属性を判別していく。

従来は容易に追加することができなかった最新用語を、高速でWebページから獲得・判別することが可能となり、インターネットユーザが新語をリアルタイムで検索できるようになるという。例えば、大学や企業のWebページから獲得した技術用語を継続的にシステムに反映することにより、ユーザが探している最新技術の名称を常に正しく検索・提示することができるため、最新用語による情報収集、および技術探索への効果が期待される。

独立行政法人情報通信研究機構(NICT)
http://www.nict.go.jp/








最新の検索エンジン業界ニュース SEMリサーチ RSS 1.0SEMリサーチ

▼[PR] 検索にガンガンヒットさせるSEOの教科書」2008年6月16日発売!
[調査] SEO - 検索順位とクリック数の関係 - 米AOLの検索行動データより
Google、サイト属性を調査できる「Google Ad Planner」をリリース
ねこすけ、無料LPOツール「ねこすけLPO」公開 - ソースコードも公開
Google、Nokiaスマートフォン向けの検索ショートカットを8カ国に対応
百度、livedoorに画像検索エンジンを提供
アウン、香港のSEM会社・AsiaPac Net Mediaと資本提携 - 中国事業を強化
グーグル、「Google Webmaster Tools」のAPIを公開
▼「SEMリサーチ」トップへ戻る





免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全てについて一切の保証をしておりません。各自の判断でご利用下さい。





関連SEMサイト - SEM リサーチ | キーワードリスト自動生成ツール | キーワードアドバイスツールプロ

カテゴリ:Google (2006) | Google (2007) | Google (2008) | MSN / Live Search | YST / Yahoo!検索 | SEO(検索エンジン最適化)
検索連動型広告 | ウェブ解析 | コンテンツ連動型広告>サイト内検索 | 地域情報検索 | 動画検索 | 旅行検索 | モバイル検索

運営者 - 『検索にガンガンヒットするホームページの作り方』 - 『検索にガンガンヒットさせるSEOの教科書』