gooラボ、日本語解析技術APIを公開

NTTレゾナントが日本語データの解析を支援する日本語解析技術APIをgooラボで公開。固有表現抽出、形態素解析、ひらがな化、語句類似度算出の4つ。今後も順次公開予定。


公開日時:2014年12月04日 07:19

NTTレゾナント株式会社は2014年12月3日、NTT研究所が開発して同社の検索エンジン「goo」で利用してきた、日本語解析技術に関連するAPIを公開した。gooラボから利用できる。

同社は1997年に提供開始した検索エンジン「goo」の運営しており、様々なWeb検索に関わる技術やノウハウを蓄積してきたほか、NTT研究所との連携により、様々な世界有数の技術を有する。同社は今後、こうした技術が企業のビッグデータ解析技術などの分野において活用が見込まれることから、APIの公開を順次行うことを決定した。

第一弾は、ビッグデータ解析などにおいて必要な要素技術である日本語解析に関わる4種類のAPIを公開する。このAPIを利用することで、日本語文章を単なる文字列集計だけでなく、書かれている内容に基づいた分析が可能になるとしている。

公開されたAPIは次の通り。

  • 語句類似度算出:2つの語句に対して、構成単語や音素の情報を踏まえて、その類似度合いを算出する。例えば、「キョート」と「京都」、「カノニカル」と「canonical」といった似通った発音を持つ異なる表記の語句を、その類似度合いにより同一語句とみなすことができる。データ統合作業を自動化すると共にデータ分析の精度と生産性を高めることが可能だ。
  • 固有表現抽出:トレンドは評判解析に必要な人名・地名・組織名を抽出する。例えば、「あのSEOのさんが今日の午前6時から、代々木周辺でSEOと連呼しながら歩き回っています」という文字列からは、人名として「辻」地名として「代々木」、日付表現として「午前6時」が抽出される。
  • ひらがな化:漢字混じりで書かれた文字列をひらがなまたはカタカナ記載に変換する。例えば、「有料リンク購入はリスクがある」という文字列を、ゆうりょうりんくは りすくがある、と変換し、文中の適当な位置に半角スペースが挿入される。
  • 形態素解析:日本語文字列を形態素単位に分割する。例えば、「このスパムが大好きです」という文字列は、「この」「スパム」「が」「大好き」「です」というように分割される。たとえば自社製品のレビュー記事からどのような表現でよく評価されているのかといった分析が可能になる。


gooラボ
https://labs.goo.ne.jp/

固有表現抽出API:文字列中の人名・地名などを抽出する技術
https://labs.goo.ne.jp/api/2014/336/

形態素解析API:日本語文字列を語句に分割する技術
https://labs.goo.ne.jp/api/2014/334/

語句類似度算出API:2つの語句の表記ゆれ度算出
https://labs.goo.ne.jp/api/2014/330/

ひらがな化API:日本語をひらがな/カタカナに変換する技術
https://labs.goo.ne.jp/api/2014/338/





記事カテゴリ:サーチニュース 2014
他の検索・SEO 関連の記事
新刊:ネットショップSEO 2014発売されました(2014年5月)
Google「パーソナライズ検索による劇的な検索順位変動は都市伝説」と説明
Google、カナダでローカルサービス広告を提供開始
グーグルとディズニーがデジタル広告分野で提携
Googleインド、モバイル検索でカバディの試合情報を表示する機能追加
goo, 2018年検索ランキングを発表、人物の1位は「羽生結弦」など
ロシアYandex、検索アップデート「アンドロメダ」を発表
Microsoft Bing、年末商戦にあわせてショッピング検索機能を強化
米Google、検索結果にユーザーがコメントを投稿できる機能を準備
プライバシーを守る検索エンジン DuckDuckGo、検索回数3,000万/1日 突破
ペンス米副大統領、中国市場向け検索アプリ開発の中止を求める
「SEMリサーチ」トップへ戻る




免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。