古いバージョンのブラウザーを使用しています。MSN を最適にご利用いただくために、サポートされているバージョンをご使用ください。

「人工知能ってどこでダウンロードできるんですか?」→無理です

ITmedia エンタープライズ のロゴ ITmedia エンタープライズ 2017/08/23
「人工知能ってどこでダウンロードできるんですか?」→無理です: Googleの機械学習ライブラリ「TensorFlow」 © ITmedia エンタープライズ 提供 Googleの機械学習ライブラリ「TensorFlow」

 人工知能を理解している人と、全く分かっていない人を隔てる壁の1つに「人工知能はどこかでインストールできるプログラムだ」という誤解があります。私自身、「ダウンロードして使ってみたいんだけど」と相談された経験が何度もあります。

 2017年現在、ビジネスの現場で「人工知能」という言葉が使われるとき、それが指し示す意味はほぼ「ディープラーニング(深層学習)」と同義です。そのため、Googleの機械学習ライブラリ「TensorFlow」や、Preferred Networksが開発したライブラリ「Chainer」がそうしたプログラムだと言えなくもありません。

 しかし、これらは人工知能そのものを作れる汎用的なプログラムとはいえません。あくまで、人工知能が物事を学んだり、判断したりするための基準である「アルゴリズム」を作成するプログラムにすぎないためです。そのため、課題や状況に合わせて作り込む必要があります。

 ダウンロードしてすぐに使える――まるで“電子レンジでチン!”すれば、すぐに食べられる総菜や冷凍食品のような、誰もが簡単に扱える人工知能の登場は、まだまだ先の話でしょう。

 このような誤解が生まれる背景には、人工知能の基礎技術である「機械学習」に対する理解が進んでいないことが挙げられます。そこで、今回は機械学習の要点をかいつまんで説明しようと思います。

●大量データから推論ルールを作る――機械学習には「3つの方法」がある

 機械学習を一言で説明すると、「大量の学習データを機械に読み込ませて、特徴を抽出し、分類や判断といった推論のためのルールを機械に作らせようという仕組み」です。

 機械側が作り上げた「推論のためのルール(アルゴリズム)」を未知のデータに当てはめ、「この画像はネコ」「このポテトは不良品」といった判断をしてもらうわけです。このルールを作成させる(学習させる)には、大きく分けて

・教師あり学習

・教師なし学習

・強化学習

 という3つの方法があります。と言っても、これだけでは分かりにくいので、この3種類の学習方法の考え方を「人工知能で“大阪のおばちゃん”を見分ける」という例で説明していきます。

 私の住む大阪府北区には、南北約2.6キロもある日本一長い商店街「天神橋筋商店街」があります。その距離は、東京駅を起点とすると、南に行けば汐留の浜離宮恩賜公園、北に行けば、神田川を越えて東京メトロの末広町駅まで届くほどです。

 商店街を歩いているとさまざまな人とすれ違いますが、10人中3人くらいの確率で(あくまで体感ですが)、ホンモノの「大阪のおばちゃん」にすれ違います。虎柄のTシャツを着ていて、なぜか見知らぬ人にアメをくれる……テレビ番組のインタビューなどで見るあの人たちです。

 もちろん、「大阪のおばちゃん」に明確な定義はありません。あくまでイメージの話なので、それを見た人の主観で決まるものではありますが、10人が見て10人が「これは大阪のおばちゃんだ」と思うような人もいるはず。ここでは、そんな“ガチ”な「大阪のおばちゃん」を機械学習の力で、人工知能が見分けられるようにしてみたいと思います。

●学習データと正解例の関係を示す――「教師あり学習」

 まず、商店街を歩く100人に街頭インタビューを行います。性別、年齢、服装、声色、特徴、アメを所持しているか、第三者目線による大阪のおばちゃんか否かの判定(正解の判定)など、インタビューを通じてさまざまなデータを蓄積します。そして、101人目にインタビューした相手が、第三者目線で見て「大阪のおばちゃん」なのかを判断するゲームに挑戦します。

 過去100人のデータの傾向から、例えば「虎柄のTシャツを着て、紫のパーマを当てた、三輪のママチャリに乗るステキな女性」が、第三者目線で見て大阪のおばちゃんだと分かっているとします。この傾向を101人目に当てはめて考えると、あてずっぽうで答えるよりも正答率は高まるでしょう。

 このように、過去のデータから正解の傾向を導き出す方法が「教師あり学習」です。各種データとその正誤を組み合わせることで、人工知能なりの判断ルールを決めていく。100人分のデータを“正解が分かっている先生からの助言”と見なして、それを基に101人目の答えを予想するので「教師あり」と評されます。

 とはいえ、この方法が万能とは限りません。あくまで過去のデータを元にして判断ルールを決めるため、そのルールに全く当てはまらないような未知のデータが出てきたときにはめっぽう弱いです。また、学習データの質(ここではインタビューした100人)が悪く、しっかりとしたルールが作れなかった……というケースも少なくないので注意が必要でしょう。

●機械的に分けたデータからルールを発見――「教師なし学習」

 商店街を歩く100人の街頭インタビューにおいて、第三者目線による「大阪のおばちゃんか否か」の判定データがなかったとします。つまり、人工知能にとって“何が正解なのか分からない”という状態です。

 このとき、人工知能側が勝手に1人1人の特徴を見つけ、グループに分けていきます(クラスタリング)。例えば、「虎に関するTシャツを着ている紫のパーマを当てた人たち」というグループが作られるかもしれません。

 こうしたデータから、規則性や傾向を発見する方法が「教師なし学習」です。「教師あり学習」は“正解”を求めるアルゴリズムなのに対して、「教師なし学習」には正解がなく、今あるデータの背景にある共通項や構造を抽出するために用いられることが多いため「教師なし」と称されます。

 今回の例で言えば、グループの規則性や特徴を確認して「このグループ、何だか大阪のおばちゃんっぽくない?」と推察を深めていくわけです。

 しかしながら、虎に関するTシャツを着ている人が全て「大阪のおばちゃん」とは限りません。紫のパーマについても同じです(関西では有名な「茜太郎」もそうです)。クラスタリングは万能ではなく、その手法もさまざまなものがあります。そのため、その結果を過信せず、データを注意深く見ていく必要があるのです。

●推論結果に報酬を与えてルールを作らせる――「強化学習」

 最後に紹介するのは「強化学習」です。これはこれまで挙げた2つとは、性格が少々異なります。大阪のおばちゃんを見分けるという話はいったん忘れてください。

 “商店街を歩く100人の街頭インタビュー”それ自体が1つのゲームだとします。このとき、大阪のおばちゃんからアメをもらえれば「1点」という報酬があるとします。インタビュー中に、大阪のおばちゃんを「おきれいですね」と褒めると「うれしいわぁ。アメちゃんあげる」と偶然にもアメをもらいました。

 この経験から「大阪のおばちゃんは、褒めるとアメをくれるらしい」と学習して、行動を修正していくことで、ルールを作成する方法が「強化学習」です。

 「特定の環境が設定され、その中でどう行動すればいいかを考える」という点で、先ほどの2つと大きく傾向が違います。用意されたデータがなくても、自動的にルールを作っていく過程そのものが強化学習だと言えます。

 昨今は、強化学習と深層学習を組み合わせた「深層強化学習(DQN:Deep Q Network)」が大きなブレイクスルーを起こしています。Googleの子会社であるDeepMindが公開した、人工知能に「ブロック崩し」を攻略させた動画は有名ですし、自動運転技術などにも、深層強化学習が用いられています。

 もちろん、全ての「大阪のおばちゃん」がアメを持っているわけでもなく、またキレイと褒めても「私にそんなお世辞は通用せん!」と怒られる場合もあります。従って、「1:前提条件などの状況が揺るがないこと」と、「2:再現性が極めて高い報酬」という2つの条件が両立する環境でなくては使えません。

●データの“外”への想像力は及ばない――機械学習のデメリット

 人工知能の根幹ともいえる機械学習ですが、弱点もあります。機械学習は“良くも悪くも”データが全てであり、データに表れないことは分からないのです。はやりの言葉で言えば、「データが無くても、空気を読んで忖度(そんたく)する」という判断はできません。

 有名な例として、ハンガリー出身のエイブラハム・ウォルドの「爆撃機の話」があります。Web上には詳細な論文もありますので、機会があればご覧ください。

 第2次世界大戦中、ウォルドは米軍から「爆撃機の装甲を強化してほしい」と依頼を受けました。彼は、無事に帰還した爆撃機の破損状況を調べ、損傷には明確なパターンがあることを見抜きました。翼や胴体は蜂の巣のように穴が開いていましたが、コックピットと尾翼にはその傾向があまり無かったのです。

 それらを踏まえて、ウォルドはコックピットと尾翼を強化することを提案しました。なぜ、損傷が少ない部分を強化しようとしたのでしょうか。

 彼は、手元にあるデータは「帰還した爆撃機」のみであり、「帰還しなかった爆撃機」のデータは含まれていないことに気付いたのです。帰還した爆撃機のコックピットと尾翼に穴が開いていないのは、そこを撃たれたら帰還できないからではないか? 帰還した爆撃機の損傷場所は、撃たれても帰還できる部分なのではないか? というのがウォルドの洞察でした。

 この話は、オペレーションズ・リサーチ(統計やアルゴリズムの力で、最も効率的な手法を選択する方法論)の分野では「選択バイアスのワナ」として知られています。

 人工知能の多くが機械学習のアルゴリズムを用いて作られていますが、これは既知の現象や、対象とする範囲が決まっているデータ(盤面の大きさが決まっている「将棋」や「囲碁」など)においては万能かもしれませんが、そうではない場合には無能と言っていいかもしれません。

 現状では、あくまで人工知能が向いているのは“特定領域における最適化”なのです。前回の記事で「人工知能は新ビジネスを生み出さない」とお話ししたのも、ここに理由があります。データに表れない文脈を推察して読み取るのは、まだまだ人間の仕事です。この仕事を奪った“人工知能”と呼ばれる製品に出会ったことはまだありません。

●著者プロフィール:松本健太郎

株式会社ロックオン開発部エンジニア 兼任 マーケティングメトリックス研究所所長。

セイバーメトリクスなどのスポーツ分析は評判が高く、NHKに出演した経験もある。他にも政治、経済、文化などさまざまなデータをデジタル化し、分析・予測することを得意とする。

本業はデジタルマーケティングと人工知能を交差させて、マーケティングロボットを現場で運用すること。

著者連絡先はこちら→kentaro_matsumoto@lockon.co.jp

ITmedia エンタープライズの関連記事

image beaconimage beaconimage beacon