Google新しい音声検索、性能はどう変化したの？

先月11月29日に発表されたGoogleの新しい音声検索について、日本語版がリリースされた当初と比較してどこが変化したのかを簡単に検証した。

1年前に実施した調査で判明していたことは「Google音声検索は、歌を正しく認識できない」つまり、抑揚があるもの、リズムやメロディに乗せた発話の認識精度は極めて低く、「Googleさがそう」の動画の中で紹介されている検索例を実際に試しても、正確に検索出来ることはまずなかった。

今回の新しい音声検索では、メロディやリズムがあるクエリの認識精度が飛躍的に向上しているようだ。GoogleのTVCMで紹介されているクエリはもちろん正確に把握できるほか、実際に歌を歌ってもワンフレーズ程度なら正確に認識された（例　恋するフォーチュンクッキー）。

全体的に言えることは、音声認識精度が飛躍的に向上している。要因は、最初の1～3文字の発話さえ正確であれば、その後が多少滑舌が悪くても問題がないこと、ある単語の発話が悪くてもその前後さえ認識されていればGoogleが自動的に最も適切であろう語句を補完できることにある。「早口言葉」「抑揚」「噛む」「滑舌が悪い」こうしたケースでも、音声を正しく識別できるように改善されている。

例えば「東京特許許可局」は早口言葉でも正確に認識するうえ、途中で噛んでも最初の「とうきょう」と最後の「かきょく」があっていれば東京特許許可局と判定するようだ。また、GoogleのCMに出てくる「中目黒アートギャラリー」も、"中目黒"と"ギャラリー"さえ発音しておけば、その間は音（声）さえ出しておけば自動的に"アート"が挿入される。同様に、「ラーメン　（もにょもにょもにょ）動画を見せて」と発話しても、（もにょもにょ）のところに"作り方"が入る。

ANA（全日空：エイ・エヌ・エーまたはアナ）のように文字列変換する際に表記候補が複数ある場合でも、前後の発話内容から最も適切な表現を選択するようになっている。これも初期のGoogle音声検索日本語版では課題だった点だが、改善を確認した。

今回の検証はPC (Windows) 機で実施した。PCから音声検索を利用する時は、先日リリースされたChrome機能拡張"拡張機能Google Voice Search Hotword (Beta)"をインストールすることで、"ok Google" と話すだけで音声検索が利用可能となる。

Google Voice Search Hotword (Beta)

https://chrome.google.com/webstore/detail/google-voice-search-hotwo/bepbmhgboaologfdajaanbcjmnhjmhfn/details

真夜中に一人PCの前に座って、10曲ほどYouTube観ながらメロディ覚えて、実際に歌を歌って検索結果を眺めて確認していましたが、ちょっと悲しくなりました…。Android及びiOS搭載端末のテストはまだ行っていません。これは後日。

今後の音声検索については、音声検索の現状の課題と普及の可能性で書きました通り、音声コントロール主体のデバイスが日常生活に浸透して、「音声で操作するのが普通」という考えが浸透する必要があると思います。あるいは、音声でデジタルデバイスを操作することが当たり前の環境で育ってきた、現在（もうちょっと先？）の子ども達の世代になるのか…。

SEMリサーチ

企業で働くウェブマスター向けに、インターネット検索やSEOの専門的な話題を扱います

Google新しい音声検索、性能はどう変化したの？