米調査会社パークス・アソシエイツは2016年10月20日、米国ユーザーの音声認識ソフトの利用状況についての調査結果を発表した。
音声認識ソフトの利用者数と満足度
Apple Siri、Google Now、Microsoft Cortana、Amazon Echo といった音声認識技術を搭載したプラットフォームやサービスが普及してきているなか、米国の1万人のユーザーを対象に同ソフトの利用について調査した。40%のユーザーは音声認識をすでに利用していると回答したが、世代別にみるとミレニアル世代(35歳以下)では半数に近い(46%)利用があるものの、年代が上がるにつれて利用者数が減少していることがわかった。
- 46% -- ミレニアル世代(1982年以降生まれ)
- 40% -- ジェネレーションX(第13世代/1965年~1981年生まれ)
- 35% -- ベビーブーマー(1946年~1964年生まれ)
- 23% -- 熟年世代(1945年以前生まれ)
デバイス別にみると、iPhoneユーザーは Android や Windows Phone ユーザーと比べて音声認識を利用する傾向があるという。
音声認識の満足度について、72%が満足していると回答、そのうち三分の一のユーザー(38%)はとても満足していると回答した。音声認識ソフトに不満があると回答したのは 9%だった。
音声認識はタイピングよりも3倍入力が速く、誤入力率は20%低い結果
スタンフォード大学の研究調査チームは2016年8月、音声認識によるテキスト入力と、モバイルスクリーンでのタイピング入力を比較した調査結果を発表している。
音声認識によるテキスト入力は、過去何十年もの間、待ち望まれていた存在であるものの、実用的なレベルではなかった。しかし近年、ディープラーニングやビッグデータなどの活用により音声認識技術が飛躍的に進化してきた。そこで同大学コンピューターサイエンスのJames Landay教授はどの程度実用的になっているのか調査を行った。
19歳から32歳のテキスト入力で育ってきたユーザーを集め、日常的に利用する約100の英語/中国語のフレーズを用意し、(1) 音声認識による入力、(2) モバイルスクリーンによる入力 - QWERTYキーボードと iOS のPinyinキーボードによる入力のテストを実施した。
その結果、言語を問わず音声認識がはるかに優れていることが明らかとなった。音声認識によるテキスト入力はタイピングよりも3倍速く、エラー率(誤入力率)も20.4%低かったという。中国標準語も音声認識は2.8倍速く入力し、エラー率は63.4%も低かった。
マイクロソフト、人間以上の精度を誇る音声認識技術を開発
米Microsoftは2016年10月18日、人間と同等に会話を認識する新しい音声認識技術を開発したことを明らかにした。プロのトランスクリプショニストよりもエラー率が低いという。同社はエラー率が6.3%から5.9%と0.4ポイント改善したとしており、これは人間と同程度を示している。
High consumer usage and satisfaction with voice recognition software drive new IoT use cases [Parks Associates]
http://www.parksassociates.com/blog/article/ceu-2016-pr10
Smartphone speech recognition can write text messages three times faster than human typing [Stanford University]
http://news.stanford.edu/2016/08/24/stanford-study-speech-recognition-faster-texting/
Historic Achievement: Microsoft researchers reach human parity in conversational speech recognition