SEMリサーチ

SEMリサーチ

Google Search by Voiceが韓国語に対応

米Googleは2010年6月30日、音声で検索できるGoogle Search by Voiceが韓国語に対応したことを発表した。

Google Search by Voiceは、キーワードを発することで音声で検索できるサービス。すでに英語、標準中国語、日本語のほか、フランス語、ドイツ語、スペイン語、イタリア語に対応済み。

今回も、韓国語の音声認識技術を開発するにあたっての特徴や課題について言及している。

Googleは一般にどの言語においても、言語の単語列の特徴を記述する音響モデル(acoustic model)、次の単語を予測したり認識対象語彙を絞り込むための言語モデル(language model)、単語と音を結びつける辞書を用いた、統計モデルを採用している。Googleは音声データとそれを書き起こしたとトランスクリプトを用いて音響モデルをトレーニングしたり、匿名の韓国語の検索クエリなどを用いて開発する。

第1に、単語と音声を結びつけるための辞書は、誰でも利用可能な航海辞書が数多く存在する英語圏と異なり、韓国語は独自に開発する必要がある。しかしながら、幸いなことに韓国語は15世紀に作られた世界で最も簡潔でシンプルなライティングシステムがあり、これを用いることで開発できたという。ただし、韓国人はたびたび英単語も用いるため、次の単語を予測するための辞書を既存の韓国語辞書から作成することで問題を解決した。

第2に、韓国語の単語区切りの問題。韓国語の正書法は日本語や標準中国語と異なりスペースを用いて単語区切りを行うが、こと検索クエリにおいては韓国人は単語区切りが曖昧なことが判明した。そこで統計モデルを用いて、稀な単語を分解することで対処した。

第3に、韓国語の発音には例外が少なくない点だ。たとえば、数字は数を並べるが、発音がそのままではない。その他、エンコーディングの問題、記述の曖昧さ(Script ambiguity)、稀な単語の認識方法などの課題についても言及した。

Google launches Korean Voice Search

http://googleresearch.blogspot.com/2010/06/google-launches-korean-voice-search.html

COPYRIGHT © 1997-2020 渡辺隆広(わたなべ たかひろ) ALL RIGHTS RESERVED.

SEMリサーチ(www.sem-r.com)に掲載している文章及び図版の無断使用及び転載を禁じます。著作権侵害行為には厳正に対処します。

免責事項:SEMリサーチは、本記事中で触れている企業、商品、サービスの全て(情報)について、有用性、適合性、正確性、安全性、最新性、真実性に関する一切の保証をしておりません。各自の判断でご利用下さい。