[논문 리뷰] Imitating Interactive Intelligence
이 논문은 인간-인간 데이터를 활용한 모방학습으로 3D 가상 Playroom에서 인터랙티브한 에이전트를 훈련하고, 보조 손실 및 평가 모델로 인간 평가를 근사하며 학습 데이터 범위를 넘어 일반화 가능성을 확보한다.
A common vision from science fiction is that robots will one day inhabit our physical spaces, sense the world as we do, assist our physical labours, and communicate with us through natural language. Here we study how to design artificial agents that can interact naturally with humans using the simplification of a virtual environment. This setting nevertheless integrates a number of the central challenges of artificial intelligence (AI) research: complex visual perception and goal-directed physical control, grounded language comprehension and production, and multi-agent social interaction. To build agents that can robustly interact with humans, we would ideally train them while they interact with humans. However, this is presently impractical. Therefore, we approximate the role of the human with another learned agent, and use ideas from inverse reinforcement learning to reduce the disparities between human-human and agent-agent interactive behaviour. Rigorously evaluating our agents poses a great challenge, so we develop a variety of behavioural tests, including evaluation by humans who watch videos of agents or interact directly with them. These evaluations convincingly demonstrate that interactive training and auxiliary losses improve agent behaviour beyond what is achieved by supervised learning of actions alone. Further, we demonstrate that agent capabilities generalise beyond literal experiences in the dataset. Finally, we train evaluation models whose ratings of agents agree well with human judgement, thus permitting the evaluation of new agent models without additional effort. Taken together, our results in this virtual environment provide evidence that large-scale human behavioural imitation is a promising tool to create intelligent, interactive agents, and the challenge of reliably evaluating such agents is possible to surmount.
연구 동기 및 목표
- 현실적이고 인터랙티브한 환경에서 인간과 유사한 상호작용과 함께 인공지능을 통합한다.
- 상호작용의 인간 시연을 모방하여 대규모 행동 prior를 개발한다.
- 인터랙티브한 학습이 감독된 행동 학습을 넘어 에이전트 행동을 향상시킨다는 것을 보여준다.
- 학습된 에이전트가 정확한 학습 경험을 넘어 새로운 상태에 일반화된다는 것을 보여준다.
- 새로운 에이전트를 평가하기 위해 인간 평가와 일치하는 판단을 하는 평가 모델을 만든다.
제안 방법
- perception, action, and language tasks를 위한 모바일 매니퓰레이터를 갖춘 3D Unity-based Playroom을 사용한다.
- ≈610k 에피소드 정도의 인간 설정자-해결사 상호작용 데이터를 수집하여 모방 학습자 훈련 및 평가에 활용한다.
- 다중 모달 관찰에 조건화된 자기회귀 정책으로 모델링된 연속적 마우스-룩 및 키보드 제어를 사용하는 action space를 활용한다.
- ResNet 기반 비전 모듈, 다중 모달 트랜스포머, LSTM 및 모터 출력과 언어 출력에 대한 별도 정책을 갖춘 에이전트를 설계한다.
- 표현을 규제하기 위해 보조 손실(Language Matching and Object-in-View)을 추가한 기본 모방 목표로 Behavioral cloning을 구현한다.
- 배포 불일치를 해결하고 시연으로부터의 학습을 개선하기 위해 inverse reinforcement learning의 역할을 논의한다.
실험 결과
연구 질문
- RQ1대규모 인간 행동 모방이 가상 환경에서 지능적이고 인터랙티브한 에이전트를 낳을 수 있는가?
- RQ2보조 학습 신호와 행동 사전이 순수 BC를 넘어 모방 학습 에이전트를 개선하는가?
- RQ3학습 데이터에 명시적으로 나타나지 않은 상태로의 일반화가 얼마나 잘 이루어지는가?
- RQ4평가 모델을 인간 판단과 맞추어 확장 가능한 에이전트 평가를 달성할 수 있는가?
주요 결과
- 인터랙티브한 학습 및 보조 손실이 단독 행동의 감독 학습을 넘어 에이전트 행동을 개선한다.
- 에이전트는 학습 데이터에 명시적으로 나타나지 않은 새로운 상태와 작업으로 일반화한다.
- 인간 시연으로부터 학습된 대규모 행동 사전이 인터랙션 중 인간과 유사한 반응을 이끌어낸다.
- 새로운 에이전트에 대해 인간 판단을 예측하도록 학습된 평가 모델이 인간 평가와 잘 일치한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.