QUICK REVIEW

[논문 리뷰] Detecting Interlocutor Confusion in Situated Human-Avatar Dialogue: A Pilot Study

Na Li, John D. Kelleher|arXiv (Cornell University)|2021. 08. 18.

Emotion and Mood Recognition참고 문헌 27인용 수 2

한 줄 요약

이 pilot 연구는 웹 기반 인터페이스를 통해 원격 참가자가 대화형 아바타와 상황적 대화를 수행할 때 다중모odal 신호—얼굴 표정, 머리 자세, 시선 방향—를 활용한 혼란도 탐지에 대해 조사한다. 자가 보고된 혼란도에 유의미한 차이가 없음에도 불구하고, 유도된 혼란 상태와 관찰 가능한 신체적 지표 간에 통계적으로 유의미한 관계를 발견하였으며, 특히 시선 범위의 증가와 더 음성적인 얼굴 표정이 두드러졌다.

ABSTRACT

In order to enhance levels of engagement with conversational systems, our long term research goal seeks to monitor the confusion state of a user and adapt dialogue policies in response to such user confusion states. To this end, in this paper, we present our initial research centred on a user-avatar dialogue scenario that we have developed to study the manifestation of confusion and in the long term its mitigation. We present a new definition of confusion that is particularly tailored to the requirements of intelligent conversational system development for task-oriented dialogue. We also present the details of our Wizard-of-Oz based data collection scenario wherein users interacted with a conversational avatar and were presented with stimuli that were in some cases designed to invoke a confused state in the user. Post study analysis of this data is also presented. Here, three pre-trained deep learning models were deployed to estimate base emotion, head pose and eye gaze. Despite a small pilot study group, our analysis demonstrates a significant relationship between these indicators and confusion states. We understand this as a useful step forward in the automated analysis of the pragmatics of dialogue.

연구 동기 및 목표

작업 중심의 인간-아바타 대화에서 혼란이 유도되고 탐지될 수 있는지 조사하기 위해.
현장 상호작용에서 지능형 대화 시스템에 적합한 혼란의 정의를 특화하기 위해.
다중모달 대화에서 혼란 상태와 관련된 비언어적 및 언어적 행동 지표를 탐색하기 위해.
비디오 모odal(감정, 시선, 자세)을 활용한 대화 보조 기반 자동 혼란도 탐지의 가능성을 평가하기 위해.
실시간으로 사용자의 혼란에 대응할 수 있는 향후 적응형 대화 정책을 위한 기초를 마련하기 위해.

제안 방법

원격 참가자가 웹 기반 인터페이스를 통해 대화형 아바타와 상호작용하는 Wizard-of-Oz 연구를 수행하였다.
혼란을 유도하기 위해 명확성과 복잡도가 다른 세 가지 작업 기반 대화 시나리오를 설계하였다.
사전 학습된 세 개의 딥러닝 모델을 도입하여 각각: (1) 얼굴 표정에서 기본 감정 추정, (2) 영상 프레임에서 머리 자세 추정, (3) 눈의 시선 방향 추정을 수행하였다.
대화 후 설문지를 통해 자가 보고된 혼란도 점수를 수집하여 관찰된 다중모달 신호와 비교하였다.
혼란을 유도하는 조건과 비혼란 조건 간의 혼란도 점수 및 신체적 지표에 대한 통계적 차이를 평가하기 위해 독립표본 t-검정을 사용하였다.
유도된 혼란 상태와 관찰 가능한 신체 행동 간의 관계를 분석하였으며, 특히 얼굴 표정, 시선 범위, 머리 자세의 변동성에 초점을 맞추었다.

실험 결과

연구 질문

RQ1의도적으로 혼란스러운 대화 상황에 놓였을 때 참가자들은 자신이 혼란스럽다는 것을 인지하고 있는가?
RQ2혼란 상태일 때 참가자들은 얼굴 표정, 시선, 머리 자세의 변화와 같은 특별한 신체적 또는 비언어적 행동을 보이는가?
RQ3감정, 시선, 자세와 같은 관찰 가능한 다중모달 신호가 현장 기반 대화 환경에서 혼란 상태를 신뢰성 있게 나타낼 수 있는가?
RQ4자기 보고의 일관성 부족에도 불구하고, 유도된 혼란과 측정 가능한 신체적 지표 간에 통계적으로 유의미한 관계가 존재하는가?

주요 결과

두 실험 조건 간 자가 보고된 혼란도 점수에 통계적으로 유의미한 차이가 없었으며(p = 0.21), 이는 참가자들이 혼란 상태를 일관되게 인지하지 못하고 있음을 시사한다.
혼란을 유도하는 조건에서 참가자들은 비혼란 조건보다 유의미하게 더 음성적인 얼굴 표정을 보였으며, 이는 감정 표현이 탐지 가능한 신호로 활용될 수 있음을 시사한다.
혼란 상태 동안 눈 시선 각도의 범위가 유의미하게 증가하였다(p < 0.05), 이는 시각적 스캐닝 증가 또는 시선 패턴의 불확실성 증가를 의미한다.
혼란 상태 동안 머리 자세의 변동성이 유의미하게 감소하여, 사용자가 혼란스러울 때 더 적은 머리 움직임 또는 더 경직된 자세를 취하는 것으로 나타났다.
특히 작업 3의 경우 조건 A(M = 4.38)에서의 혼란도 점수가 조건 B(M = 3.00)보다 유의미하게 높았으며(p < 0.05), 적어도 한 가지 작업에서 혼란 상태가 성공적으로 유도되었음을 확인하였다.
표본 크기와 데이터 품질의 한계가 있음에도 불구하고, 이 연구는 신체적 행동 지표와 혼란 상태 간의 탐지 가능한 연관성을 입증하였으며, 다중모달 대화 시스템에서 자동 혼란도 탐지의 가능성을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.