QUICK REVIEW

[논문 리뷰] Where Do You Think You're Going?: Inferring Beliefs about Dynamics from Behavior

Siddharth Reddy, Anca D. Dragan|arXiv (Cornell University)|2018. 05. 21.

Reinforcement Learning in Robotics참고 문헌 47인용 수 26

한 줄 요약

이 논문은 인간의 의도를 추론하기 위한 새로운 방법을 제안한다. 인간의 행동이 최적 또는 노이즈가 난 행동이 아니라, 환경의 동역학에 대한 내부 믿음에 기반한 비최적 행동에서 유추함으로써, 인간의 행동을 최적화된 행동으로 간주하는 기존의 접근 방식의 한계를 해결한다. 사용자를 자신의 동역학 모델 내에서 최적 행동을 취하는 존재로 모델링하고, 이 모델을 소프트 Q-값 최적화를 통해 추정함으로써, 이전의 방법들보다 더 나은 의도 추론 성능을 달성한다. 이는 연속적이고 비선형적인 MDP에서 성능 향상을 이룬다.

ABSTRACT

Inferring intent from observed behavior has been studied extensively within the frameworks of Bayesian inverse planning and inverse reinforcement learning. These methods infer a goal or reward function that best explains the actions of the observed agent, typically a human demonstrator. Another agent can use this inferred intent to predict, imitate, or assist the human user. However, a central assumption in inverse reinforcement learning is that the demonstrator is close to optimal. While models of suboptimal behavior exist, they typically assume that suboptimal actions are the result of some type of random noise or a known cognitive bias, like temporal inconsistency. In this paper, we take an alternative approach, and model suboptimal behavior as the result of internal model misspecification: the reason that user actions might deviate from near-optimal actions is that the user has an incorrect set of beliefs about the rules -- the dynamics -- governing how actions affect the environment. Our insight is that while demonstrated actions may be suboptimal in the real world, they may actually be near-optimal with respect to the user's internal model of the dynamics. By estimating these internal beliefs from observed behavior, we arrive at a new method for inferring intent. We demonstrate in simulation and in a user study with 12 participants that this approach enables us to more accurately model human intent, and can be used in a variety of applications, including offering assistance in a shared autonomy framework and inferring human preferences.

연구 동기 및 목표

인간의 최적성 가정에 기반한 역강화학습(IRL)의 한계를 해결하기 위해, 사용자가 환경의 동역학을 잘못 이해하고 있을 경우 비최적 행동을 보일 수 있음을 고려한다.
비최적 행동을 노이즈나 편향으로 보는 것이 아니라, 환경의 동역학에 대한 잘못된 내부 모델 하에서 최적 행동으로 모델링한다.
고차원적이고 연속적인 상태 공간에서의 행동 시연 데이터로부터 내부 동역학 모델을 효율적으로 추론할 수 있는 확장 가능한 방법을 개발한다.
추론된 내부 동역학 모델을 활용해 인간 행동을 예측하고 보조함으로써 의도 추론, 공유 자율성, 선호도 학습을 향상시킨다.

제안 방법

관측된 행동의 가능도를 최대화하는 방식으로 사용자의 내부 동역학 모델을 추정한다. 이때 행동은 지수화된 Q-값에 기반한 확률적 선택을 통해 결정된다.
소프트 벨먼 방정식을 사용해 내부 동역학 모델과 소프트 Q-함수를 연결함으로써, 시연 데이터로부터 동역학 파라미터를 엔드 투 엔드로 미분 가능한 방식으로 학습할 수 있도록 한다.
내부 동역학 모델을 소수의 학습 가능한 파라미터(최대 7개)로 매개변수화하여, 연속 상태 공간에서도 효율적인 최적화를 가능하게 한다.
실제 보상 함수가 알려진 작업에서의 시연 데이터를 사용해 내부 동역학 모델을 훈련한 후, 이 내부 모델에서 유도된 정책을 실제 동역학으로 이전하여 보조 기능을 제공한다.
모의 MDP와 실제 사용자 연구(로열 랜더 게임을 활용)를 통해 내부 동역학 모델 복원 및 보조 성능을 검증한다.
학습된 내부 동역학 모델을 활용해 향후 상태를 예측하고, 내부 동역학에서 실동역학으로 정책을 이전함으로써 공유 자율성 기능을 실현한다.

실험 결과

연구 질문

RQ1연속적이고 비선형적인 MDP에서 사용자의 비최적 행동을 바탕으로 인간 사용자의 환경 동역학에 대한 내부 모델을 정확히 추론할 수 있는가?
RQ2비최적 행동을 잘못된 내부 동역학 모델 하에서 최적 행동으로 모델링할 경우, 노이즈나 인지적 편향을 가정하는 것보다 더 나은 의도 추론 성능을 달성할 수 있는가?
RQ3추론된 내부 동역학 모델을 활용해 공유 자율 시스템에서 보조 기능을 향상시킬 수 있는가? 예를 들어, 내부 동역학에서 유도된 정책을 실제 동역학으로 이전할 수 있는가?
RQ4이 방법은 복잡한 고차원 제어 작업(예: 로열 랜더)에서 실제 인간 사용자에게도 잘 일반화되는가?

주요 결과

연속 상태 공간을 가진 모의 MDP에서, 제안된 방법은 인간의 행동을 설명하는 데 있어 실제 세계의 동역학보다 내부 동역학 모델을 더 잘 복원하였다.
로열 랜더 게임을 플레이한 12명의 참가자에 대한 사용자 연구에서, 추론된 내부 동역학 모델이 실제 동역학보다 관측된 인간 행동을 더 잘 설명하였다.
복원된 내부 동역학 모델을 통해 내부 동역학에서 유도된 정책을 실제 동역학으로 효과적으로 이전할 수 있었고, 이는 사용자가 게임을 더 신뢰성 있게 완료하도록 보조하는 데 기여하였다.
이 방법은 선형 또는 이산 모델을 넘어서 비선형적이고 고차원적인 연속 상태 공간으로도 확장 가능하며, 이전의 방법들이 비가역적인 영역에서 성능을 내지 못하는 영역에서도 유의미한 성능을 보였다.
사용자 행동을 최적화된 믿음 체계 하에서 발생하는 것으로 모델링함으로써, 의도 추론과 선호도 학습이 향상됨을 입증하였다.
결과적으로 내부 동역학 모델 추정이 적응형 보조 기능, 개인화된 피드백, 의도 인식 AI 시스템의 기초가 될 수 있음을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.