古いバージョンのブラウザーを使用しています。MSN を最適にご利用いただくために、サポートされているバージョンをご使用ください。

フェイスブックはどうやって友達の顔写真を特定しているのか

ダイヤモンド・オンライン のロゴ ダイヤモンド・オンライン 3日前 夏目幸明
フェイスブックはどうやって友達の顔写真を特定しているのか: 今回のAIブームが一過性で終わらないのは、「ディープラーニング」の登場にある。今ではあちこちで耳にするようになったディープラーニングを、もう一度きちんと押さえておこう。 © diamond 今回のAIブームが一過性で終わらないのは、「ディープラーニング」の登場にある。今ではあちこちで耳にするようになったディープラーニングを、もう一度きちんと押さえておこう。

AIの説明でよく使われる「ディープラーニング」。人間の脳の機能をもとにつくられたこの仕組みによって、AIの機能は劇的に向上した。ディープラーニングは、生活のさまざまなシーンですでに私たちも使っているのだという。(経済ジャーナリスト 夏目幸明)

コンピューターが直感を獲得する!?ディープラーニングとは何か

夏目 前回(記事はこちら)、ディープラーニング」で、AIは人間同様「経験の蓄積」ができるように進化し「直感」を持つようになった、とおっしゃってましたが、私には宇宙語のように思えます。

岡田 いえ、わかりやすくご説明できますよ。まず、ここに犬と猫の写真があります。我々は簡単に「これは犬」「こっちは猫」と判別できますよね。じゃあナツメさんは、論理的に「ここがこうだと犬」「ここがこうなら猫」と説明できますか?

夏目 犬も猫も4本足で、鼻の下にヒゲが…あれ?これじゃダメだな。難しいですよね。

岡田 でも、それを定義して教えないと、コンピューターは犬と猫の区別すらできないんです。じゃあ逆に、なぜ人間は犬と猫の区別がつくんでしょう?それは犬や猫を見てきた経験を蓄積し、直感を持っているからです。

 そこで、コンピューターにも人間と同じように経験を積んでもらいます。具体的には、犬の写真を何千枚と見せるのです。犬の顔のアップもあれば、後ろ姿もあるでしょう。雪景色の中で走っている写真もいいでしょう。コンピューターは見せられた画像を解析していきます。

 まず、どこか1ピクセルを見て、次にその周囲を1ピクセルずつ広げて見て、また1ピクセル広げて見て…と分析します。それが終わるとさらに、隣のピクセルを見て、また周囲1ピクセルまで広げて見て、また1ピクセル広げて見て…と飽きずに繰り返します。しかもこれを、何千枚、何万枚と続けるんです。すると「犬の画像にはこんな特徴がある」という共通点が見つかってきます。例えば猫にない耳のエッジとか…。

夏目 舌を出してる写真が多いな、とか?

岡田 それもあるでしょう。コンピューターは「舌だ」と認識はしませんが、「画像にいつもの形がある」「これは犬の特徴の一つかもしれない」と記憶し始めます。耳、目、鼻、尻尾、毛並み、動き方など、様々な部分に「犬の写真のいつもの形」があるわけです。そして猫でも同じことをします。するとAIは「これは犬の可能性が高い」「猫の可能性が高い」と判別し始めます。これが「ディープラーニング」(深層学習)による画像認識です。こうしてAIは直感を得ていくのです。

夏目 もしかしたら、人間もそうやって犬と猫の違いを判別しているのかもしれない。

岡田 おっしゃる通りです。このディープラーニングの仕組みは人間の脳の機能をもとにつくられていて「ニューラルネットワーク」(神経回路網)と呼ばれます。人間と同じように、経験を積むことで正確性が高まっていきます。例えば犬は犬でも、毛が長い犬、耳が長い犬など、より多くの犬を見せるほど「これも犬か」「これも犬か」と特徴を記憶していきます。これを「特徴量の獲得」と言います。具体的には「画像にこの特徴(形)が出現すると90%の確率で犬。この特徴が検出されると90%の確率で犬、2つ合わせると99%犬」といった具合に判断していくんです。

Facebookの不思議な機能もAIによるものだった!

岡田 これにフィードバックを加えると、さらに正確になります。コンピューターに犬とも猫とも教えずに犬の画像を何千枚も見せ、間違って「猫」と判断したものがあったら「いや、犬だよ」と教えてあげるのです。すると正答率が高まっていきます。犬や猫の画像だけでなく、イラストだって判断することができますよ。ちゃんと「これは犬」「これは猫」と教えていけば、その特徴を把握して「これ、犬じゃない?」と分かるようになるんです。

夏目 たしかに人間のようだ!でも、それって我々の生活でどう役立つんですか?  

岡田 例えばFacebookに友達と一緒に写った写真をアップしたら、コンピューターが友達の顔を認識して「〇〇さんじゃないですか?タグ付けしますか?」と表示されますよね。

夏目 あれ、何でだろうと思ってた!

岡田 あれもディープラーニングを使っています。ナツメさんがFacebookにあげた写真は分析され、目の形、鼻の形などの特徴量が把握されます。そして、ナツメさんの友人の誰かがナツメさんと一緒に写った写真をアップすると「おや、この人の写真のここに、こういう特徴がある。この画像のこの部分はナツメさんなんじゃないですか?」と表示されるんです。

夏目 へえー!でもたまに迷惑ですよね。締切前に酒を飲んでいたのを編集者にチクッてくれた恨みは忘れてませんよ。

岡田 (笑)。あとは音声認識です。スマホで音声検索ができますね。音は、言葉でも音楽でも、周波数という1本の波形で示されます。そこで「あ」なら「あ」の音の周波数を、コンピューターがディープラーニングで学習するわけです。

夏目 いろんな人の声や話し方の「特徴」を覚えてて、「“とうきょう”と言った」とか直感でわかるわけですね。

岡田 おっしゃる通りで、Googleは大量のユーザーに音声認識のアプリケーションを利用してもらうことで、より現実問題に即したデータを収集することができています。ディープラーニングするためのサンプルは膨大です。だからアナウンサーが話したような綺麗な発音の「とうきょう」や、方言のある方が急いでしゃべった「とうきょう」など、多くの特徴量を獲得しています。だから多くの方が話す「とうきょう」を認識できるんです。

 実は1970年代から「ニューラルネットワークを使えばディープラーニングが可能になる」と言われていました。しかし当時はコンピューターの性能が追いつかず「この膨大な処理を行うには数万年かかるよね」といった事態が頻発し、研究が下火になっていきました。しかし90年代からコンピューターの性能が爆発的にあがって、再び注目されたんです。

夏目 だから、前回の記事でおっしゃっていたように「経験の蓄積ができ」「コンピューターに人間らしい“直感”が備わった」というわけですね。ところでこれ、産業で役に立ったりするんですか?

岡田 もちろんです。だから、今回のAIブームは一過性のブームでは終わらないんです。

ダイヤモンド・オンラインの関連リンク

ダイヤモンド・オンライン
ダイヤモンド・オンライン
image beaconimage beaconimage beacon