Webページから新語を自動的に抽出、情報検索の精度向上に


インターネット上に日々登場する新語を自動的に抽出して検索精度の向上に役立てる技術が登場した。


2005年07月29日 11:15 | ニュース 05Q3 | TrackBack (0) | 執筆:

独立行政法人情報通信研究機構(NICT)と沖電気工業株式会社は2005年7月21日、Webページから新語を獲得して属性を判別する技術を共同開発したと発表した。

インターネット検索エンジンを利用して検索や抽出を行う際、対象となる文書中のテキストの解析が必要になりますが、辞書に登録されていない新語が含まれると適切に解析が行えないことがある。しかし今日のインターネット上では日々新語が生み出されているため、これが検索や抽出の精度を下げる原因となっている。

両者が開発した技術は、収集した大量のWebページに対して形態素解析を行い、文中の形態素列の頻度と、その前後の形態素の異なり数とを指標とした関数を用いて新語の判定を行い用語を獲得する。さらに固有表現抽出※3や既存辞書とのマッチングを行って用語を構成する形態素に素性を割り当て、その情報を利用して用語全体の属性を判別していく。

従来は容易に追加することができなかった最新用語を、高速でWebページから獲得・判別することが可能となり、インターネットユーザが新語をリアルタイムで検索できるようになるという。例えば、大学や企業のWebページから獲得した技術用語を継続的にシステムに反映することにより、ユーザが探している最新技術の名称を常に正しく検索・提示することができるため、最新用語による情報収集、および技術探索への効果が期待される。

独立行政法人情報通信研究機構(NICT)
http://www.nict.go.jp/













最新の検索エンジンニュース

米Google、レビューに基づいた訪問先のレコメンデーションを開始
米Google News、様々な切り口の記事を探しやすくするためのハイライト表示を強化
docomo、スマホ向け「dメニュー」公開 - 検索結果にdメニューリストサイトを表示
Google、検索タブ切り替え時にキーワードが引き継がれない不具合発生
米Google News、言語の壁を越えてニュース検索が可能に
NAVER、スマートフォン版統合検索を刷新
ネイバー、NAVERまとめに「グループまとめ」機能を追加
アイレップ、ハノイ工科大学と共同で「Digital Marketing Research Lab」を開設
米Google、画像にも+1ボタンを追加
「SEMリサーチ」トップへ戻る




免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。





関連SEMサイト - SEM リサーチ | キーワードリスト自動生成ツール | キーワードアドバイスツールプロ

カテゴリ:Google (2006) | Google (2007) | Google (2008) | Google (2009) | MSN / Live Search | YST / Yahoo!検索 | SEO(検索エンジン最適化)
検索連動型広告 | ウェブ解析 | コンテンツ連動型広告>サイト内検索 | 地域情報検索 | 動画検索 | 旅行検索 | モバイル検索


運営者 - 『検索にガンガンヒットするホームページの作り方』 - 『検索にガンガンヒットさせるSEOの教科書』