QUICK REVIEW

[논문 리뷰] On the Utility of Learning about Humans for Human-AI Coordination

Micah Carroll, Rohin Shah|arXiv (Cornell University)|2019. 10. 13.

Reinforcement Learning in Robotics인용 수 91

한 줄 요약

자가 놀이 에이전트는 다른 AI와는 잘 협력하지만 사람과의 협력에선 실패한다; 사람 데이터나 모델로 학습하면 인간-AI 협력이 개선되며, Overcooked 기반 환경에서 시연되고 인간 사용자 연구로 확인된다.

ABSTRACT

While we would like agents that can coordinate with humans, current algorithms such as self-play and population-based training create agents that can coordinate with themselves. Agents that assume their partner to be optimal or similar to them can converge to coordination protocols that fail to understand and be understood by humans. To demonstrate this, we introduce a simple environment that requires challenging coordination, based on the popular game Overcooked, and learn a simple model that mimics human play. We evaluate the performance of agents trained via self-play and population-based training. These agents perform very well when paired with themselves, but when paired with our human model, they are significantly worse than agents designed to play with the human model. An experiment with a planning algorithm yields the same conclusion, though only when the human-aware planner is given the exact human model that it is playing with. A user study with real humans shows this pattern as well, though less strongly. Qualitatively, we find that the gains come from having the agent adapt to the human's gameplay. Given this result, we suggest several approaches for designing agents that learn about humans in order to better coordinate with them. Code is available at https://github.com/HumanCompatibleAI/overcooked_ai.

연구 동기 및 목표

AI 시스템에서 인간 인식형 조정의 필요성을 촉진하고, 인간과 협력할 때 자가 학습의 실패를 다룬다.
도전적 조정에서 인간-AI 협업을 테스트하기 위해 Overcooked에서 영감을 받은 환경을 도입한다.
사람과의 협업을 위한 자가학습, 개체군 기반 학습, 계획, 인간 모델 기반 학습을 평가한다.
시뮬레이션된 인간 파트너와 실제 인간 파트너 모두에서 인간 모델을 도입하면 성능이 개선됨을 보여준다.

제안 방법

양파, 접시, 수프가 있는 Overcooked 유사 다중 에이전트 환경을 개발하여 조정 도전을 만든다.
각 레이아웃에 대해 인간-인간 궤적을 수집하고 간단한 행동 복제 인간 모델(BC)을 학습시킨다.
자가 학습(SP), 개체군 기반 학습(PBT), 결합 계획(CP)으로 학습된 에이전트를 인간 모델(PPO BC, BC를 이용한 계획)으로 학습된 에이전트와 비교한다.
보류된 대리 인간 모델 H_Proxy에 대해 에이전트를 평가하고 실제 인간을 대상으로 한 사용자 연구에서 평가한다.
도달 가능한 성능의 경계를 설정하기 위해 대리 인간 모델에 직접 접근하여 에이전트를 학습시키는 금표준 기준선을 사용한다.

실험 결과

연구 질문

RQ1자가 학습으로 훈련된 조정이 비 최적의 인간 모델이나 실제 인간과 짝을 이룰 때 저하되는가?
RQ2행동 복제나 계획을 통한 인간 모델을 학습에 포함시키는 것이 자가 학습만으로 이뤄진 것보다 인간-AI 조정을 개선할 수 있는가?
RQ3인간 파트너와 조정할 때 계획 기반과 강화학습 기반 접근법은 어떻게 비교되는가?
RQ4시뮬레이션된 대리 인간을 이용한 발견이 실제 인간 사용자에게 일반화되는가?

주요 결과

자가 학습 및 PBT 에이전트는 자체적으로는 잘 작동하지만 대리 인간 모델이나 실제 인간과 짝을 이룰 때 상당히 떨어진다.
행동 복제 인간 모델(PPO BC)로 학습된 에이전트는 인간과 짝을 이룰 때 자가 학습 에이전트보다 우수하며 가능한 경우 금표준 성능에 근접한다.
진짜 인간 모델에 접근한 계획은 도움이 되지만, BC 모델을 가진 계획은 인간 모델이 부정확하면 루프나 성능 저하로 이어질 수 있다.
모방 기반 인간 모델은 인간이 최적이거나 에이전트와 같다고 가정하는 것보다 더 나은 협업을 낳고, 인간 모델을 활용한 계획/강화학습은 일반적으로 순수 모방보다 낫다.
사용자 연구에서 PPO BC는 여러 레이아웃에서 일반적으로 SP와 PBT를 능가하지만 작업 레이아웃과 모델 품질에 따라 효과가 달라진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.