古いバージョンのブラウザーを使用しています。MSN を最適にご利用いただくために、サポートされているバージョンをご使用ください。

希望の映像がすぐ見付けられる――Watsonが変える映像活用

ITmedia エンタープライズ のロゴ ITmedia エンタープライズ 2017/03/21
希望の映像がすぐ見付けられる――Watsonが変える映像活用: IBMクラウド・ビデオ・サービス部門でビデオ提供のディレクターを務めるグレゴール・マクエルヴォーグ(Gregor McElvogue)氏 © ITmedia エンタープライズ 提供 IBMクラウド・ビデオ・サービス部門でビデオ提供のディレクターを務めるグレゴール・マクエルヴォーグ(Gregor McElvogue)氏

 シスコのVisual Networking Index(VNI)予測によると、「2019年までに、インターネットトラフィックの80%は映像になる」といわれている。映像はもともとの情報量が多いため、データ自体が大きいせいもあるが、さまざまなコンテンツの中でも映像が重要な役割を担っていることは間違いない。

 しかし、こうした映像データの多くはメタ情報が少なく、後から探し出すためには、映像のタイトルや、作成者が用意したタグ情報などを頼りにするくらいしか方法がない。テレビ放送なら、米国のクローズドキャプション(CC)や、日本の文字多重放送のような仕組みを活用し、内容に関するテキストデータを参照できるケースもあるが、YouTubeのようなサービスで公開されている映像や、生配信の映像、企業が製品やサービスの説明や宣伝のために用意した映像などには、内容に関するデータがほとんどないことも少なくない。

 そんな現在の状況を変えうる研究が、IBM Cloud Videoプラットフォームで進められている。人工知能「Watson」に“映像の文法”を教えることで、人間が理解するのと同じように、Watsonが映像の中身を理解して、分類し、見付けやすくしたり、レコメンドしたり、あるいは映像の中から主要な要素を抜き出したりできるようにしようというものだ。NHK放送技術研究所なども、映像にメタデータを自動付与する文字列検出技術を行っているが、Watsonを活用するこの技術は、普及すれば映像の探し方や楽しみ方が変わる可能性がある。

●Watsonが映像ならではの特徴を学習

 Watsonを利用して、オーディオトラックを音声認識してCCを作る「Watson Closed Caption」は、2015年のInterConnectでデモが披露されており、すでに約1秒程度のタイムラグでライブ映像にもCCが付けられるまでになっているという。このサービスは、日本語を含む、Watsonがサポートするすべての言語で2017年後半には提供予定だ。今後は、映像内の文字を認識して、トランスクリプションに含めたり、CCのデータを活用した映像のトピックベースの検索などにも対応する。

 そこからさらに一歩進めて、前述のとおりWatsonに映像の文法を学習させると、映像の構成要素が分かるようになる。つまり、「シーン」が認識できるようになる。構図やカット割り、音楽の変化、画面の動きなどから、ストーリーの流れ、場面の転換、登場人物の感情の浮き沈み、映像のクライマックスなどを理解するわけだ。

 実際にこの映像の文法を理解させたWatsonで、「Morgan」という、遺伝子工学により生み出された人造人間をテーマにしたSFホラー映画の予告映像を作らせたことがある。大量のホラー映画やスリラー映画の予告編を学習させた後、Morganの本編映像の中から、予告編の校正に最適な10のシーンをレコメンドさせ、それを元に予告映像をプロの映像編集者が作成したという。

 一般的に、こうした映画の予告映像を作る場合、制作者は映像を何度も見返したり、シーンを吟味したりと、「調査」に多くの時間を割く。しかし、この映像の文法を学習したWatsonを活用すれば、調査の時間は圧倒的に短くなり、映像編集者はよりクリエイティブな作業に時間を費やせるようになる。

 またIBMでは、TEDの講演映像をすべてWatsonに学習させる、という興味深い実験も行っている。TEDは、学術、エンターテインメント、デザインなどにまつわる多様なテーマで、さまざまな人がプレゼンテーションをするイベントで、2006年から講演の映像をネット上で無料で公開している。2000本以上に及ぶ映像データは、テーマや講演者で検索ができるが、この映像を学習し、プレゼンテーションの内容を分析したWatsonを活用すると、自然言語で質問されたテーマに合う映像を、ライブラリの中から簡単に探し出せる。

 例えば「お金と幸福との関係について」と質問すると、お金と幸福について話をしている映像がレコメンドされる。映像の主題やタイトルとは関係ない、プレゼンテーション内で言及された一言であっても、映像の中の特定の部分を指定してリストアップしてくれるのだ。

 この機能はTEDのサイトで会員登録をすると、実際に試してみることができる。

 この技術は、「こんな映像が見たい」「あんなストーリーを見たい」「こういう話が聞きたい」といった、漠然としたニーズに対して、短時間で最適なコンテンツを探し出せる点で非常に注目に値する。

●IBM Cloudのサービスとして活用できる可能性

 IBMは近年、IBMクラウド部門の事業として、映像関連の技術を多数集めている。2014年1月に、ブロードバンドネットワークを介した大規模データ転送の高速化テクノロジーを開発するAsperaを買収。また2015年11月には、非構造化データの手軽な格納、管理、取得を可能にする、オブジェクトベースのストレージソフトウェア、アプライアンスなどを開発するCleversafeも買収した。さらに2015年12月には、クラウドベースの映像配信サービスを手がけるClearleapを、2016年1月には動画配信プラットフォームのUstreamを買収している。

 IBMクラウド・ビデオ・サービス部門でビデオ提供のディレクターを務めるグレゴール・マクエルヴォーグ(Gregor McElvogue)氏は、「IBMはビデオが非常に重要だと考えています。Watsonや買収した各社の技術を活用したビデオプラットフォームは、根本的にビジネスプロセスを変えていくことができるでしょう。エンタープライズビジネスの中でも、映像を活用するシーンが増えることが予想されますが、こうした技術を元にした広範なクラウドサービスを提供できるのはIBMだけです」と胸を張った。

ITmedia エンタープライズの関連記事

image beaconimage beaconimage beacon