古いバージョンのブラウザーを使用しています。MSN を最適にご利用いただくために、サポートされているバージョンをご使用ください。

“マツコロイド”と“マツコ”の雑談は、なぜ失敗したのか?

ITmedia エンタープライズ のロゴ ITmedia エンタープライズ 2016/12/01
“マツコロイド”と“マツコ”の雑談は、なぜ失敗したのか?: NTTメディアインテリジェンス研究所 主任研究員 東中竜一郎さん © ITmedia エンタープライズ 提供 NTTメディアインテリジェンス研究所 主任研究員 東中竜一郎さん

 ドラえもんや鉄腕アトムのような、人間と自然に会話ができる人工知能は本当に生まれるのか――。NTTで人工知能による雑談対話を研究している東中竜一郎さんに聞く本インタビュー。本記事(中編)では、人間らしい自然なコミュニケーションを実現するために必要な“要件”について聞いていく。

●「話を変えたい」という気持ちを数値化できるか?

 NTTで人工知能による雑談対話を研究している東中竜一郎さんは、1年ほど前に、芸能人のマツコ・デラックスさんに似せたロボット「マツコロイド」に雑談機能を組み込み、テレビ番組でマツコさんと雑談をさせたことがあるが、うまくいかなかったという。独身のマツコさんに対して、マツコロイドが“夫婦”に関する話題を振り続けてしまい、気まずい雰囲気が流れてしまったのだ(番組的には笑いが起きて盛り上がったが)。

 「マツコロイドについても、ブログなどのデータから会話の話題を選んでいるわけですが、夫婦の話題に固執してしまったのは、マツコさんの心を読み切れていないのが原因ですね。マツコさん自身は、この話題から離れたいという気持ちを示していたのですが、人工知能は、“今、話題を変えるべきだ”ということを理解できない。むしろ夫婦の話題が出てきたので、そのまま続けた方がいいという解釈をしてしまったのです」(東中さん)

 相手が発した言葉“そのもの”を分析してしまうと、相手の気持ちを読み切れない。特に遠回しな表現が多い日本語では、それが大きな問題になってしまう。こうした背景から東中さんは、「この話題から離れたいと思っているかどうか」を認識する機能についても研究している。言葉の“言い方”で数値化できる部分が大きく、精度は高まってきているが、他のシステムとの連携がまだできていないという。

 そして、仮に現在の話題から離れたいことが分かったとしても、別の話題に移るのも簡単なことではない。例えば「うどんがイヤ」だと分かったとして、そばの話題ならいいのか、めん系の話題はダメなのか、どこに飛べばよいのか、選択肢は無数にある。そして、あまりに関係のない話題になると、相手が混乱して会話が途切れる可能性もあるのだ。

 「普段の雑談から、相手の好き嫌いの情報などを事前に把握しておけば、話題を変えたいときにうまくテーマを選べる可能性は高まります。あと必要なのは、テキスト以外の情報ですね。このシステムでは、音声認識した結果のテキストだけがロボットに入力され、それを音声合成で出力しているだけなので、マツコさんの表情とかしぐさを全然考慮してないわけです。

 ちょっと『うっ』と思ったり、『変なこと言ったな』というような顔をしたときも、システム側はそれが分からない。人間であれば、顔の表情とか動きとか目線とか、そういう情報から『ちょっと話題を変えた方がいいか』と判断しますよね。そういった部分を今後やらなくちゃいけないのですが、既存の対話システムと融合するのは簡単ではないと考えています」(東中さん)

●「言葉」と「表情」の情報を融合しにくい理由

 人間のコミュニケーションは、バーバル(Verbal:言語)とノンバーバル(Non-Verbal:非言語)の2種類に分けられる。人がコミュニケーションで相手から受け取る情報のうち、言語そのものから得られる情報は1割程度にすぎず、しぐさや態度などといった情報が残りの9割を占めるという。相手から「ありがとう」と言われても、その表情がこわばっていたら、感謝をされているとは思いづらいだろう。

 スムーズなコミュニケーションは、“言葉と表情、両者の分析が組み合わさって生まれる”といえるが、両方の研究を連携して進めているケースは少ないという。

 「今の研究では、対話とジェスチャー、そのどちらかだけをやっているケースが多いですね。テキストは1つ1つの単語があるかないかといった情報(離散値)ですが、ジェスチャーや音声は、波形や映像などで表す、数値の情報(連続値)であることが多く、お互いに使う情報が全然違うため、研究者があまり被っていないんですよ。

 今、うちのグループには両方の研究者がいるので、これからは一緒に研究しようと思っていますし、ロボティクス分野の第一人者として知られる石黒浩先生とも協力できる体制が整っています。統合的に研究を進めることで、心が通い合ってるんじゃないかと思えるようなロボットを仕上げられる可能性があると思っているんです」(東中さん)

 ジェスチャーや声のトーンなど、さまざまな情報を組み合わせれば、コミュニケーションのレベルが高まるのは間違いないが、そこにもやはり問題がある。情報が増えれば増えるほど、処理に時間がかかってしまう上、各情報の統合も難しくなるのだ。人間の場合はそれを自然なスピードでやってのけるが、このレスポンスが遅くなってしまうと、不自然な印象を相手に与えてしまう。

 「人間同士の会話って、実は半分くらいは相手の語尾に“食い気味”のタイミングで始まるんですよね。1秒でも反応がないと相手を不安にさせてしまいます。人間の場合、仮に話す言葉が出てこなくても『あー』とか『うーん』といった言葉を発して、その間に考えている。中でも『えっと』という言葉は、考えている印象を相手に与えるので、通常よりも長く間が持ちます。こうした言葉を使い分けて、「これから話しますよ」という意志を伝えながら話す技術が必要になっているんです」(東中さん)

 こうしたタイムラグは、スーパーコンピュータを使うなど、マシンの処理能力が上がれば解消されるようにも見えるが、東中さんによると「スパコンを使えばできる」という段階にたどり付いていないのが現状なのだという。

●「スパコン」を使う前に解決すべき2つの課題

 マシンのスペックを高めても、理想的な反応速度を実現するのが難しい理由として、東中さんは「認識」と「プランニング」という2つの問題を挙げる。

 現在のNTTにおける雑談対話システムでは、ユーザーの発言の意図を理解する部分、システム側の発話の意図を決める部分、発話の意図を正しく伝えられるよう文字化する部分など、複数のシステムをつなげる形で処理を行っている。

 このシステムでは(AI全般に言えることではあるが)、基本的に相手の言葉を聞ききってから処理を始めるため、相手の語尾に被せることも多い人間のコミュニケーションに比べると、どうしても初動が遅れてしまう。先に紹介したように、「うーん」や「えっと」という相づちを発することが解決策にはなるものの、それはただ時間を稼いでいるだけで、本質的に早く応答できるようになるわけではない。これがAIの「認識」におけるタイムラグの問題だ。

 「『インクリメンタルプロセシング』という、聞いてる間に考えて応答する研究は結構ありますし、相づちを的確に打つ研究も20年くらい前からずっと続いています。しかし、それが長い会話で使えるまでには発展していません。あと、相手の『言い間違い』や『言い直し』にも弱いですね。何が違っているのかを把握するのが難しい。人間のコミュニケーションに近づけるには、リアルタイム処理のような仕組みが必要になるのですが、そのモデルができていないのです」(東中さん)

 もう1つの「プランニング」は、端的に言えばアルゴリズムの問題だ。人間の場合、「相手はこう考えているのではないか」「自分がこう話したら、こういう言葉を返すのではないか」という予測を少なからず行って会話をしているが、全ての可能性を検討してから判断を行うようなAIの場合、可能性が無限にある中での「予測」は極めて難しい。

 「全ての可能性を考えようとすると、コンピュータが動かなくなるので、『このときはこういうことを考えればいいんだ』というように、範囲を限定して検索をする必要があります。そして相手の反応に合わせて、その範囲を変えていく。ただしその範囲というのも、コミュニケーションの場合は曖昧な概念なので、漠然とした状態で次の手を考えなければいけません。スパコンを使ったら多少は速くなるのでしょうが、どこまでの範囲で考えたらよいか分からない以上、プランニングの部分が結局ネックになってしまいます」(東中さん)

●ユーザーの影響を受ける「人工知能」を目指して

 人間の場合、このプランニングという行為は常識を上手く使って行うが,それに加えて、協調的な会話を行うためには、相手に合わせて話す内容を適宜プランニングしていくことも重要だ。そのため,対話システムには学習する仕組みが必要だと東中さんは強調する。ひいては、それが話したくなるシステムを実現する要件になるという。

 「その人がよく使うフレーズを使うと仲良くなりやすいですし、日常的な情報も全部覚えてくれるとか、そういった技術も入れていかないといけません。“おもてなし”という観点で考えれば、やはり一人一人に合わせたシステムが理想ですが、音声認識や応答の方法、話し方についてもまだそのレベルに達していません。システムがユーザーの影響を受けない点にも問題があると思っています。

 人間の場合、接する相手の影響を受けて成長し、最終的に人格が形成されていきます。学校に行って、褒められたり、怒られたりしながら人格ができていって、社会性を学んでいく。なので、最終的にはロボットの対話システムも、話しながら良くなっていくというのが理想ではあるんです。それをどこまで技術で加速できるかという点に尽きると思っています」(東中さん)

●人が「雑談を続けたくなる」3つのポイント

 こうした技術をフルに生かしても、長い間雑談を続けるのは難しい。エージェントサービスのように一時的に使うものならばよいが、毎日使うロボットであれば、雑談の割合は高まっていく。そのため、雑談がより長く続けられるよう、話を盛り上げるためのポイントについても、東中さんは研究しているそうだ。

 「多くの人にペアになって会話してもらい、話のログから1つ1つの発言について、その発言をしたときに何を考えていたかを説明してもらいました。その結果、相手に合わせて話を盛り上げるために人間が考えることは10種類くらいあり、統計的にも有意に対話の質を高めると分かったのが、話題をうまく変える、話題を深掘りする、相手とリズムを合わせるの3つでした。話題の転換は先ほどお話しした通りですが、特に深掘りについては、人間と人工知能が仲良くなる上で必要だと分かっているので、これをどうシステム化するかが課題ですね」(東中さん)

 最終回となる次回は、対話研究の最先端、そして対話システムや人工知能のこれからについてお話を伺っていく。

ITmedia エンタープライズの関連記事

image beaconimage beaconimage beacon