QUICK REVIEW

[논문 리뷰] Interactive AI with a Theory of Mind

Mustafa Mert Çelikok, Tomi Peltola|arXiv (Cornell University)|2019. 12. 01.

Advanced Bandit Algorithms Research인용 수 8

한 줄 요약

이 논문은 다중 보상 밴딧 설정에서 사용자를 능동적이고 계획하는 에이전트로 모델링함으로써 상호작용형 AI에 계산적 마음의 이론(ToM)을 도입하는 것을 제안한다. 핵심 기여는 활동적 사용자 모델(L4)을 갖춘 AI 시스템이 수동적 모델(L1–L3)보다 훨씬 뛰어난 성능을 보이며 사용자 의도와 피드백 전략을 예측함으로써 더 높은 작업 성능을 달성하는 것을 입증한 개념 증명 성향의 사용자 연구이다.

ABSTRACT

Understanding each other is the key to success in collaboration. For humans, attributing mental states to others, the theory of mind, provides the crucial advantage. We argue for formulating human--AI interaction as a multi-agent problem, endowing AI with a computational theory of mind to understand and anticipate the user. To differentiate the approach from previous work, we introduce a categorisation of user modelling approaches based on the level of agency learnt in the interaction. We describe our recent work in using nested multi-agent modelling to formulate user models for multi-armed bandit based interactive AI systems, including a proof-of-concept user study.

연구 동기 및 목표

상호작용에서 사용자를 전략적이고 계획하는 에이전트로 간주함으로써 수동적 사용자 모델링의 한계를 해결하기 위해.
상호작용 중 사용자의 기여 수준을 가정한 기반으로 네 수준의 사용자 모델링 분류 체계를 제안하기 위해.
상호작용 밴딧 작업에서 사용자 행동을 예측할 수 있도록 허용하는 중첩 다에이전트 모델을 개발하고 평가하기 위해.
ToM 기반 AI 모델이 전통적인 수동 모델보다 더 나은 협업 결과를 이끌어내는 것으로 경험적으로 입증하기 위해.

제안 방법

사용자 기여 수준에 따라 고려된 네 수준의 사용자 모델링 분류 체계를 제안: 고정된 모델(L1)에서 AI의 밴딧 정책을 모델링하는 내부 모델을 가진 능동적으로 계획하는 사용자(L4)까지, 사용자 기여의 복잡성 증가를 강조한다.
사용자를 AI의 밴딧 정책을 모델링하는 계획자로 표현하기 위해 중첩 다에이전트 모델링을 사용함으로써 전망 행동을 가능하게 한다.
부분 관찰 가능한 마르코프 결정 과정(POMDP) 프레임워크 내에서 확률적 추론과 유한 합리성 기반으로 상호 신뢰와 의도를 모델링한다.
역 강화 학습과 확률적 추론을 사용하여 상호작용 데이터에서 사용자 선호도와 피드백 전략을 학습한다.
AI가 단어를 선택하고 사용자가 예/아니요 피드백을 주는 식의 스무 가지 질문 스타일 게임에서 상호작용 AI 시스템을 구현한다.
10명의 참가자와 20개의 목표 단어를 포함한 제어된 환경에서 수동 모델 대비 능동적 사용자 모델을 가진 AI의 성능을 비교하는 사용자 연구를 통해 모델을 검증한다.

실험 결과

연구 질문

RQ1능동적이고 계획하는 에이전트로 모델링된 사용자(L4)가 수동적 또는 반응적 모델보다 상호작용 작업에서 AI 성능을 얼마나 향상시키는가?
RQ2서로의 신뢰와 의도를 포괄하는 중첩 다에이전트 모델이 인간-AI 상호작용에서 협업을 얼마나 향상시킬 수 있는가?
RQ3AI에 이론적 마음의 이론(ToM)이 실제 환경에서 사용자 작업 성능과 상호작용 효율성에 어떤 영향을 미치는가?
RQ4AI가 사용자 피드백 전략을 예측할 수 있는 능력이 다중 보상 밴딧 설정에서 수렴 속도와 정확도에 어떤 영향을 미치는가?

주요 결과

사용자 연구에서 능동적 사용자 모델(L4)은 수동적 사용자 모델(L1–L3)보다 유의미하게 뛰어난 성능을 보였으며, 12회의 질문 이후 유의미한 통계적 차이를 보였다.
사용자가 능동적 에이전트로 모델링된 AI와 상호작용할 때 누적 보상이 더 높게 기록되어 더 효율적인 협업이 이루어졌음을 나타냈다.
목표 단어를 식별하는 데 필요한 질문 수가 능동적 모델에 의해 감소하여 상호작용 효율성이 향상됨을 입증했다.
사용자를 전략적 에이전트로 모델링하고 AI에 대한 내부 모델을 갖춘 것이 작업 성능 향상에 명백한 기여를 한다는 점을 연구가 확인했다.
결과는 ToM 기반 사용자 모델링이 이론적으로 타당할 뿐 아니라 실제 인간-AI 상호작용에서 실질적으로 효과적이라는 것을 검증한다.
연구는 ToM이 AI에서 상호작용 설정에서 시스템 성능와 사용자 경험을 모두 향상시킬 수 있다는 경험적 증거를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.