古いバージョンのブラウザーを使用しています。MSN を最適にご利用いただくために、サポートされているバージョンをご使用ください。

「誰にでも使えるAI」のインパクト

ITmedia エンタープライズ のロゴ ITmedia エンタープライズ 2017/04/14
「誰にでも使えるAI」のインパクト: MicrosoftはAIの民主化を目指す © ITmedia エンタープライズ 提供 MicrosoftはAIの民主化を目指す

 「Microsoftが目指しているのは、AIの民主化。AIのパワーを誰でも、安価に、使いやすい環境で提供する」――。日本マイクロソフト 執行役員 最高技術責任者(CTO)の榊原彰氏は、同社のAI戦略の基本姿勢をこう表現する。

 同社では、「AIの民主化」という表現とともに、「みんなのAI」という表現を用いているが、この言葉に共通して込められた意味は、多くの人が利用できる、より身近なAIの実現を目指しているという点だ。

●重要な役割を担う「Cognitive Services」

 Microsoftでは、エージェント、アプリケーション、サービス、インフラストラクチャーという4つの観点から、AIを実現。その中核となる機械学習サービスにおいては、同社のクラウド基盤「Microsoft Azure」の上に、「Cognitive Services」「Azure Machine Leaning」「CNTK(Microsoft Cognitive Toolkit)/DMTK(Distributed Machine Learning Toolkit)」といったサービスを提供する。

 なかでも、Cognitive Servicesは、AIの民主化において重要な役割を担う。

 Cognitive Services は、約25種のツール(API)から構成され、開発者に機械学習の知識がまったくなくても、感情検知や画像認識、音声認識、自然言語理解などの機能をアプリケーションに追加できるのが特徴だ。

 米Microsoft Researchのスピーチ&ダイヤログリサーチグループ主任研究者、マイク・ゼルツァー氏は、同社のブログを通じて、「ほとんどの場合、最先端の機械学習モデルを構築するには、多くの時間やデータ、専門知識、計算時間を必要とする。Microsoftの音声認識テクノロジーの開発においては、ノイズの多い環境でも確実に動作し、特定のユーザーグループや環境における専門用語や方言、なまりにも対応できるアルゴズムを開発するのに、10年以上を費やしてきた」と前置きし、「Cognitive Servicesは、Microsoftが持つすべての機械学習とAI関連の機能を、使いやすいAPIを介して公開しており、開発者はこれらのテクノロジーを自分で開発する必要はない」とする。

 Microsoftは先頃、ソフトバンクロボティクスのヒューマノイドロボット「Pepper」上にCognitive Servicesを実装することができる、Cloud Robotics Azure Platform V1 SDKの提供と、Cloud Robotics APIの公開を発表した。Cloud Robotics APIでは、想定されるPepperの利用シナリオに沿って、顔認識APIなど200行のコードを共通化。開発者は、Pepperアプリに10行程度のコードを追加するだけで、Cognitive Servicesの機能を利用可能だ。

 「クラウドの知識や開発経験がなくても、30分程度でCognitive Servicesが提供する顔認識や翻訳などの機能を、Pepperで利用できる」という。

 Cognitive Servicesは、5つのカテゴリーで構成される。コンピュータ画像、顔認識、動画認識、感情認識が「ビジョン」、音声認識、発話、カスタム認識が「スピーチ」、テキスト分析、Web言語モデル、言語認識、言語分析、スペルチェックが「言語」、学術知識、知識探索、エンティティリンク、レコメンデーションが「知識」、そしてBingによるイメージ検索、ニュース検索、動画検索、Web検索が「検索」に分類される。

 これらの技術によって、動画や静止画を分析して、それを示す最適な文章を構成したり、音声認識では、会話内の単語を5.9%の単語誤り率で認識し、人間と同レベルの聞き取り能力を達成したりといったことを実現している。

●機械翻訳で日本語をサポート

 そして機械翻訳においては、テキスト翻訳および音声翻訳の双方が可能な10番目のサポート言語として、4月7日に日本語を追加。Microsoft Translatorアプリや、Skype Translatorなど、 Microsoft Translatorを活用したすべてのアプリとサービスで日本語が利用できるようになった。

 Microsoft Translatorライブ機能を活用することで、自分のデバイスやブラウザ上で、対面型のリアルタイム翻訳が可能になる。日本語を話す人たちが、すでにサポートされているアラビア語、中国語(北京語)、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、ロシア語の9言語を話す人たちと、直接対話ができる世界が実現したわけだ。

 そのほか、「Skype for Windows」と「Skype Preview for Windows 10」で提供されSkype Translatorの機能により、他のSkypeユーザーとリアルタイム翻訳を活用した対話も可能だ。さらに、新たにリリースした「Microsoft Translator PowerPointアドイン」(プレビュー版)では、PowerPointからTranslatorのライブ機能を直接使用することで、リアルタイムでプレゼンテーションに字幕を付けることも可能になっている。

 Microsoft Translatorも、「みんなのAI」を実現する取り組みの1つであり、Azureで提供されるCognitive Services APIファミリーであるMicrosoft Translator APIを、アプリやサービスに統合できるようになっている。

 そして、こうしたAIの民主化を支えているのが、Azureということになるが、ここでは、すべてのノードでFPGA(Field-Programmable Gate Array)を採用。これまでのCPU+GPUの組み合わせに、プログラムが可能なFPGAを加えることで、クラウド上でも圧倒的なパワーを活用した処理が可能になる。

 これはMicrosoft社内では、「Project Catapult」と呼ばれていた取り組みの1つだ。その成果として、2016年9月に米国で開催されたMicrosoft Igniteにおける米Microsoftのサティア・ナデラCEOによる基調講演では、ロシア語から英語への翻訳をデモストレーション。ロシア語で書かれた1440ページのトルストイの「戦争と平和」を英訳する際に、CPUサーバだけで翻訳した場合には19.9秒かかったのに対して、FPGAが搭載されたサーバでは、2.6秒で翻訳を完了させてみせた。

 こうしたインフラへの投資が、AI技術の進化とともに、誰でも活用できるAIの民主化に大きく貢献しているのは明らかだ。

 Microsoftでは、「我々が飛び込もうとしているのは、より多くの人々のために、より多くの興味深い方法で、コンピュータの機能を活用できる時代である」とし、「AIの民主化」の方向性を示してみせる。

 AIの進化とともに、AIの民主化を並行してい推進しているのが、マイクロソフトのAI戦略なのだ。

ITmedia エンタープライズの関連記事

image beaconimage beaconimage beacon