近未来のSociety 5.0を背景に、遍在化するIoTデバイスと高速ネットワーク網によりかつてないほどの膨大なデータがサイバー空間に蓄積されていく中、濁流のようなデータやそれに基づく意思決定の結果を迅速に整理し、効果的に人間に伝えられるスマートな情報空間ガイドAIの実現が期待されます。このようなガイドAIは、会話インタラクションを通して来訪者の興味や好奇心、目的を適切に理解し、パーソナライズされたガイダンスを行うための、協調的で関係構築的な戦略を有している必要があります。
「BLENDi」(Blended Dialog)プロジェクトでは、科学館や博物館のようなミュージアムのデジタルツイン環境において、ユーザの曖昧な反応を巧みに捉えながら、ユーザの興味や好奇心に合わせて膨大な情報を事前または動的に整理し、適応的にストーリーを展開して場内を案内できるガイドAIエージェントを開発しています。ガイドの性能指標として情報伝達効率や学習効果、ミュージアムへの再訪問意欲などを定義し、実証実験を通して有効性を検証しています。本サービスは、ミュージアムの機能強化と運用コストの最適化を実現するソリューションを提供します。
BLENDiの源流にあるアイディアは、早稲田大学 知覚情報システム研究所(所長:小林哲則教授)で開発されてきた「話し上手な会話システム」にさかのぼります。ここで「話し上手な会話システム」の要件は以下のように整理されています。
世の中の情報伝達システムは大きくPush型とPull型に分類されます。ラジオに代表されるPush型のシステムは、受動的な情報消費を可能とするとするため、ユーザは楽に情報を取得できるという長所があります。しかし、途中で聞き返せない、興味がない内容が含まれていても最後まで聞き続けなければならないという短所があります。一方、一問一答型の対話システムに代表されるPull型のシステムは、ユーザの能動的な情報獲得行動に基づき、ユーザは欲しい情報を取得できます。しかし、質問し続けなければならない、質問を考えること自体負担が大きい、まとまった量の情報を得るのが難しいという問題があります。そこで、早稲田大学 知覚情報システム研究所では、ハイブリッド型のシステムとして、PushとPullのモードを高頻度に切り替えながら情報にアクセスできる音声対話システムを開発してきました。このシステムは、主計画・副計画と呼ぶ事前に計画されたシナリオに基づいて対話を進行させます。主計画は、対象文書の要点を説明するための発話計画であり、対象文書を要約し口語化することで生成されます。一方、副計画は、主計画の内容を補うための発話計画であり、予想されるユーザ反応に対する応答を計画したものです。ユーザが受け身で聴いている限り、システムは主計画に従った情報伝達を行います。ユーザは任意のタイミングでフィードバックを返すことができ、システムはユーザの情報要求に応じて副計画に遷移し補足説明を行います。このようなシナリオを事前に用意しておくことで音声対話による即応性の高い円滑な情報伝達を実現しました [1, 2]。
[1] 高津弘明, 福岡維新, 藤江真也, 林良彦, 小林哲則: 意図性の異なる多様な情報行動を可能とする音声対話システム, 人工知能学会論文誌, Vol. 33, No. 1, pp. 1-24, 2018.
[2] 高津弘明: 快適な情報享受を可能とする音声対話システム, 早稲田大学学位論文, 32689甲第5725号, pp. 1-288, 2019.
シナリオ主計画の自動生成:要点説明のためのシナリオである主計画の要件として、ユーザにとって興味がある内容であること、ストーリーが一貫していること、冗長でないことが挙げられます。本研究では、ミュージアムの各展示の解説文書などからパーソナライズされた主計画を生成する問題を、各文書の談話構造と合計発話時間の制約のもと、文に対する興味度の高さと文間の類似度の低さのバランスで定義された目的関数を最大化する整数線形計画問題として定式化しました [4, 5] 。
評価指標:評価指標として、ユーザの興味がある情報を提示できた割合(被覆率)とユーザの興味がない情報を除外できた割合(除外率)の調和平均で求まる情報伝達効率を定義しました。作成したデータセットを用いて、提案手法でパーソナライズした要約が一般的な重要度に基づく要約よりも情報伝達効率が高いことを確認しました [3, 4]。また、主観評価においても有意にパーソナライズした要約の方がユーザの興味を引く内容になっていることを確認しました [3]。
パーソナライゼーションの高速化:この整数線形計画問題はNP困難な問題であり、問題の規模が大きくなると最適解を得るのに膨大な時間が必要になります。そこで、量子コンピューティング技術を活用して準最適解を高速に得る手法を開発しました。具体的には、主計画生成問題をQUBO形式で定式化し、シミュレーテッドアニーリングベースのイジングマシンであるデジタルアニーラを用いて、実用的な時間で制約違反のない準最適解が導出できることを確認しました [5]。
[3] Hiroaki Takatsu, Mayu Okuda, Yoichi Matsuyama, Hiroshi Honda, Shinya Fujie, and Tetsunori Kobayashi: Personalized extractive summarization for a news dialogue system, in Proceedings of the 2021 IEEE Spoken Language Technology Workshop, pp. 1044-1051, 2021.
[4] Hiroaki Takatsu, Ryota Ando, Hiroshi Honda, Yoichi Matsuyama, and Tetsunori Kobayashi: Personalized extractive summarization with discourse structure constraints towards efficient and coherent dialog-based news delivery, in Proceedings of the 12th International Workshop on Spoken Dialog System Technology, 2021.
[5] Hiroaki Takatsu, Takahiro Kashikawa, Koichi Kimura, Ryota Ando and Yoichi Matsuyama: Personalized extractive summarization using an Ising machine towards real-time generation of efficient and coherent dialogue scenarios, in Proceedings of the 3rd Workshop on Natural Language Processing for Conversational AI, pp. 16-29, 2021.
システムが伝える情報量の観点から、その増減を要求する発話意図を分類しました。伝達情報の増加を求める発話意図として「質問」「補足要求」「反復要求」、伝達情報の減少を求める発話意図として「無関心」「既知」、発話衝突の回避を求める発話意図として「待機要求」を定めました。ユーザとシステムが対話して得られたユーザの発話音声のうち、1.5秒以下の短い発話を対象に上記発話意図のアノテーションを行いました。ユーザ発話の韻律情報と言語情報および直前のシステム発話の文脈情報に基づいてユーザの発話意図を識別するモデルを開発し、作成したデータセットを用いて提案手法の有効性を評価しました [6]。
[6] Hiroaki Takatsu, Katsuya Yokoyama, Yoichi Matsuyama, Hiroshi Honda, Shinya Fujie, and Tetsunori Kobayashi: Recognition of intentions of users’ short responses for conversational news delivery system, in Proceedings of the 20th Annual Conference of the International Speech Communication Association, pp. 1193-1197, 2019.
談話構造上の発話の役割を「前置き」「核」「補足」に分類し、これらを補助情報として継続長モデルと音響モデルを学習することで、核の発話が際立つようなメリハリのある話し方を実現しました。ニュース記事の内容に関する理解度テストにおいて、提案手法で合成した音声で説明を受けたユーザグループは、従来の一文の情報のみで学習した音声合成器で合成した音声で説明を受けたユーザグループよりも高い成績を示しました [7]。また、話す内容に応じて感情的なメリハリを付加するために、音声合成システムの感情パラメータを文単位で制御する方法として、文の系列ラベリングにより感情ラベルを識別する手法についても検討しました [8]。
[7] 高津弘明, 福岡維新, 藤江真也, 岩田和彦, 小林哲則: 会話によるニュース記事伝達のための音声合成, 人工知能学会論文誌, Vol. 34, No. 2, pp. 1-15, 2019.
[8] Hiroaki Takatsu, Ryota Ando, Yoichi Matsuyama, and Tetsunori Kobayashi: Sentiment analysis for emotional speech synthesis in a news dialogue system, in Proceedings of the 28th International Conference on Computational Linguistics, pp. 5013-5025, 2020.