QUICK REVIEW

[論文レビュー] Detecting Interlocutor Confusion in Situated Human-Avatar Dialogue: A Pilot Study

Na Li, John D. Kelleher|arXiv (Cornell University)|Aug 18, 2021

Emotion and Mood Recognition参考文献 27被引用数 2

ひとこと要約

本パイロット研究では、ウィザード・オブ・オズの設定を用いて、身体的行動信号（顔の感情、頭の向き、視線）を用いて、状況的対話における混乱状態の検出を調査した。自覚的混乱度に有意差は認められなかったが、誘発された混乱状態と観察可能な身体的指標との間に統計的に有意な関係が確認され、特に視線の範囲が拡大し、顔の表情がより否定的になる傾向が顕著であった。

ABSTRACT

In order to enhance levels of engagement with conversational systems, our long term research goal seeks to monitor the confusion state of a user and adapt dialogue policies in response to such user confusion states. To this end, in this paper, we present our initial research centred on a user-avatar dialogue scenario that we have developed to study the manifestation of confusion and in the long term its mitigation. We present a new definition of confusion that is particularly tailored to the requirements of intelligent conversational system development for task-oriented dialogue. We also present the details of our Wizard-of-Oz based data collection scenario wherein users interacted with a conversational avatar and were presented with stimuli that were in some cases designed to invoke a confused state in the user. Post study analysis of this data is also presented. Here, three pre-trained deep learning models were deployed to estimate base emotion, head pose and eye gaze. Despite a small pilot study group, our analysis demonstrates a significant relationship between these indicators and confusion states. We understand this as a useful step forward in the automated analysis of the pragmatics of dialogue.

研究の動機と目的

タスク指向の対話における混乱が誘発可能で、検出可能かどうかを調査すること。
状況的対話における知能的会話システムに適した混乱の定義を独自に開発すること。
マルチモーダル対話における混乱状態と関連する非言語的および言語的行動的兆候を調査すること。
視覚モダリティ（感情、視線、ポーズ）を用いた自動化された混乱検出の可能性を評価すること。
将来的なリアルタイムでのユーザーの混乱に応じた適応的対話ポリシーの基盤を構築すること。

提案手法

Webベースのインターフェースを通じて、遠隔にいる参加者が会話アバターと対話するウィザード・オブ・オズ研究を実施した。
混乱を誘発するための3つのタスク指向の対話シナリオを設計し、明確さと複雑さの面で変化を加えた。
3つの事前学習済みディープラーニングモデルを導入して、それぞれ（1）顔の表情から基本感情を推定し、（2）動画フレームから頭の向きを推定し、（3）視線の方向を推定した。
対話終了後のアンケートを通じて自覚的混乱度スコアを収集し、観察されたマルチモーダル信号と比較した。
独立した母集団t検定を用いて、混乱誘発条件と非混乱条件との間で、混乱度スコアおよび身体的指標に有意差があるかを評価した。
誘発された混乱状態と観察可能な身体的行動（顔の感情、視線の範囲、頭の向きの変動）との関係を分析した。

実験結果

リサーチクエスチョン

RQ1意図的に混乱を引き起こされた状況に置かれた参加者は、自分が混乱していることに気づいているか？
RQ2混乱している際、顔の表情、視線、頭の向きの変化といった、明確な身体的または非言語的行動を示すか？
RQ3感情、視線、ポーズといった観察可能なマルチモーダル信号が、状況的対話文脈における混乱状態を信頼性高く示せるか？
RQ4自己報告の不一致にもかかわらず、誘発された混乱と測定可能な身体的指標との間に統計的に有意な関係があるか？

主な発見

2つの実験条件間で自覚的混乱度スコアに有意差は認められなかった（p = 0.21）ことから、参加者は混乱に一貫して気づいていなかったことが示された。
混乱誘発条件では、非混乱条件と比較して顔の表情が顕著に否定的になった（p < 0.05）。これは感情表現が検出可能な信号である可能性を示唆している。
混乱状態では視線角度の範囲が有意に広がった（p < 0.05）ことから、視線パターンの不確実性や視覚スキャンの増加が示唆された。
混乱状態では頭の向きの変動が有意に減少した。これは、ユーザーが混乱している際は頭の動きが少なく、より硬直した姿勢をとることが示された。
特にタスク3に関しては、条件A（M = 4.38）の混乱度スコアが条件B（M = 3.00）よりも有意に高かった（p < 0.05）。これは少なくとも1つのタスクで混乱の誘発に成功したことを確認した。
サンプルサイズやデータ品質の制限はあったが、本研究は身体的行動指標と混乱状態との間に明確な関連があることを示し、マルチモーダル対話システムにおける自動化された混乱検出の可能性を支持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。