米YouTubeは2010年3月4日、動画共有サイト「YouTube」で、映像の音声を解析して自動的に字幕(キャプション)を作成する機能を全ユーザに公開したことを公式ブログで発表した。
YouTubeの自動字幕作成機能は2008年11月に少数の一部のパートナー向けに公開された。Googleの音声検索技術で培われた音声テキスト変換アルゴリズムなどの技術を利用して、自動的に映像に字幕を生成する。動画投稿者は作成された字幕をダウンロードして修正して再アップロードすることもできる。
今回、自動字幕作成機能をYouTube全ユーザに開放する。最初は英語が話されている動画のみを対象に行う。ただし、ノイズが多い、音声がこもっている映像では字幕は自動作成されない。たとえば最近のチリ大地震に関する米オバマ大統領の演説は、適切に自動字幕作成機能が働く好例の1つだ。
字幕の自動作成には多くの時間がかかるため、過去に投稿された動画に字幕がつくまでに時間を要する。投稿者は新たに用意されるリクエスト機能を用いて、早く字幕をつけるようにYouTubeに要請することもできる。なお、自動字幕作成は完璧ではないため、間違った字幕がつく場合もある。投稿者は字幕を修正できるが、YouTubeも音声認識技術を日々改善していくとしている。
英語以外の字幕作成は、順次、対応していく計画。
The Future Will Be Captioned: Improving Accessibility on YouTube
http://youtube-global.blogspot.com/2010/03/future-will-be-captioned-improving.html
#
動画の音声認識は、バックグラウンドのノイズのほか、話者が複数いるケースの対応も課題。複数の音声がかぶったり、誰が発言者かを区別する必要もある。いずれは映像の音声をテキスト化して、それを検索可能にしたいかも知れませんが乗り越えなければいけない課題も多い。