古いバージョンのブラウザーを使用しています。MSN を最適にご利用いただくために、サポートされているバージョンをご使用ください。

DeepMindのAI、読唇でも人間のプロに勝つ

ITmedia NEWS のロゴ ITmedia NEWS 2016/11/25
DeepMindのAI、読唇でも人間のプロに勝つ © ITmedia ニュース 提供 DeepMindのAI、読唇でも人間のプロに勝つ

 米Google傘下のDeepMindと英オックスフォード大学エンジニアリング科学学部は11月16日、「Lip Reading Sentences in the Wild」と題す論文を公開(リンク先はPDF)した。

 人間が何を話しているかを、口の動きだけで読み取る「読唇(lip readinig)」ための、ディープラーニングベースの人工知能(AI)開発に関する論文だ。

 このプロジェクトでは、英国営放送BBCで2010年1月〜2015年12月に放映した5000時間以上の番組をAIに“見せ”ることで訓練した。これらの動画には11万8000以上のセンテンス(文章)が含まれている。

 こうして育てた結果、未見のBBC番組でテストしたところ、読唇のプロの人間が12.4%読み取ったところ、AIは46.8%読み取れたという。しかも、ミスのほとんどは、複数形を表す語尾の「s」を抜かすといった小さなミスだったとしている。

 プロジェクトチームのジョーン・ソン・チャン教授が公開した動画(記事末に転載)を見ると、動画に合わせてAIが字幕をほぼリアルタイムで表示している。

 プロジェクトチームは、トレーニングリソースとしてBBCのデータセットを公開する計画だ。

ITmedia NEWSの関連記事

image beaconimage beaconimage beacon