SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

gooラボ、日本語解析技術APIを公開

NTTレゾナント株式会社は2014年12月3日、NTT研究所が開発して同社の検索エンジン「goo」で利用してきた、日本語解析技術に関連するAPIを公開した。gooラボから利用できる。

同社は1997年に提供開始した検索エンジン「goo」の運営しており、様々なWeb検索に関わる技術やノウハウを蓄積してきたほか、NTT研究所との連携により、様々な世界有数の技術を有する。同社は今後、こうした技術が企業のビッグデータ解析技術などの分野において活用が見込まれることから、APIの公開を順次行うことを決定した。

第一弾は、ビッグデータ解析などにおいて必要な要素技術である日本語解析に関わる4種類のAPIを公開する。このAPIを利用することで、日本語文章を単なる文字列集計だけでなく、書かれている内容に基づいた分析が可能になるとしている。

公開されたAPIは次の通り。

  • 語句類似度算出:2つの語句に対して、構成単語や音素の情報を踏まえて、その類似度合いを算出する。例えば、「キョート」と「京都」、「カノニカル」と「canonical」といった似通った発音を持つ異なる表記の語句を、その類似度合いにより同一語句とみなすことができる。データ統合作業を自動化すると共にデータ分析の精度と生産性を高めることが可能だ。
  • 固有表現抽出:トレンドは評判解析に必要な人名・地名・組織名を抽出する。例えば、「あのSEOのさんが今日の午前6時から、代々木周辺でSEOと連呼しながら歩き回っています」という文字列からは、人名として「辻」地名として「代々木」、日付表現として「午前6時」が抽出される。
  • ひらがな化:漢字混じりで書かれた文字列をひらがなまたはカタカナ記載に変換する。例えば、「有料リンク購入はリスクがある」という文字列を、ゆうりょうりんくは りすくがある、と変換し、文中の適当な位置に半角スペースが挿入される。
  • 形態素解析:日本語文字列を形態素単位に分割する。例えば、「このスパムが大好きです」という文字列は、「この」「スパム」「が」「大好き」「です」というように分割される。たとえば自社製品のレビュー記事からどのような表現でよく評価されているのかといった分析が可能になる。

gooラボ

https://labs.goo.ne.jp/

固有表現抽出API:文字列中の人名・地名などを抽出する技術

https://labs.goo.ne.jp/api/2014/336/

形態素解析API:日本語文字列を語句に分割する技術

https://labs.goo.ne.jp/api/2014/334/

語句類似度算出API:2つの語句の表記ゆれ度算出

https://labs.goo.ne.jp/api/2014/330/

ひらがな化API:日本語をひらがな/カタカナに変換する技術

https://labs.goo.ne.jp/api/2014/338/

COPYRIGHT © 1997-2020 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。