[논문 리뷰] Third-Person Imitation Learning
이 논문은 도메인 혼동과 GAN 유사 구성 요소를 활용하여 서로 다른 시점의 시연으로부터 학습하는 비지도 제3자 모방 학습 방법을 제안합니다. 이 방법은 새로운 도메인에서의 정책 학습을 가능하게 하며, 일인칭 시연 없이도 간단한 MuJoCo 과제(pointmass, reacher, inverted pendulum)에서 성공을 입증합니다.
Reinforcement learning (RL) makes it possible to train agents capable of achieving sophisticated goals in complex and uncertain environments. A key difficulty in reinforcement learning is specifying a reward function for the agent to optimize. Traditionally, imitation learning in RL has been used to overcome this problem. Unfortunately, hitherto imitation learning methods tend to require that demonstrations are supplied in the first-person: the agent is provided with a sequence of states and a specification of the actions that it should have taken. While powerful, this kind of imitation learning is limited by the relatively hard problem of collecting first-person demonstrations. Humans address this problem by learning from third-person demonstrations: they observe other humans perform tasks, infer the task, and accomplish the same task themselves. In this paper, we present a method for unsupervised third-person imitation learning. Here third-person refers to training an agent to correctly achieve a simple goal in a simple environment when it is provided a demonstration of a teacher achieving the same goal but from a different viewpoint; and unsupervised refers to the fact that the agent receives only these third-person demonstrations, and is not provided a correspondence between teacher states and student states. Our methods primary insight is that recent advances from domain confusion can be utilized to yield domain agnostic features which are crucial during the training process. To validate our approach, we report successful experiments on learning from third-person demonstrations in a pointmass domain, a reacher domain, and inverted pendulum.
연구 동기 및 목표
- 교사와 학생 상태 간의 대응 관계가 없는 제3자 시연으로부터 학습하는 방법을 다룬다.
- 원시 관찰로부터의 모방을 인도하기 위한 도메인 불변 표현 및 보상 신호를 개발한다.
- 다른 도메인과 시점의 전문가 시연을 사용하여 미숙한 도메인에서의 정책 학습을 가능하게 한다.
제안 방법
- 도메인 불변 특징을 기반으로 전문가 궤적과 비전문가 궤적을 구분하는 제3자 RL-GAN을 형식화한다.
- 판별기를 특징 추출기(D_F)와 분류기(D_R)로 분할하고, 도메인 불변성을 강제하기 위해 역전 gradient를 이용하는 도메인 분류기(D_D)를 도입한다.
- 상호 정보(mutual information) 기반 목표를 사용하여 D_F가 도메인 특유 정보를 제거하면서도 구별 능력을 유지하도록 한다.
- 도메인 손실을 반전 부호로 역전파하는 그래디언트 플립(G)을 도입하여 도메인-불변 특징을 촉진한다.
- 판별 기반 보상 −log D_R을 사용하여 TRPO(신뢰 영역 정책 최적화)로 모방 정책 π_θ를 학습한다.
- 인식 신호를 개선하기 위해 다중 시간 스텝 관찰(o_t, o_{t+n})로 입력을 확장한다.
실험 결과
연구 질문
- RQ1다른 도메인과 시점에서의 관찰로부터의 모방 학습이 간단한 과제에서도 해결될 수 있는가?
- RQ2도메인 혼동 및 다중 시간 스텝 입력을 도입하면 제3자 모방 학습의 성능이 향상되는가?
- RQ3λ 같은 도메인 혼동 가중치와 앞다룸 프레임 수 같은 하이퍼파라미터에 얼마나 민감한가?
- RQ4전문가 도메인과 초보 도메인 간의 카메라 각도 차이가 학습에 어떤 영향을 미치는가?
- RQ5제안된 방법이 true-reward RL 및 1인칭 모방 학습과 같은 베이스라인과 어떻게 비교되는가?
주요 결과
- 이 방법은 제3자 시연으로부터 pointmass, reacher, inverted pendulum에 대해 합리적인 정책을 학습한다.
- 도메인 혼동은 세 가지 과제 모두에서 강력한 성능을 위해 필수적이며, 다중 시간 스텝 입력은 추가 이점을 제공한다.
- 특징 표현이 도메인-불변적으로 되어 제3자 학습이 원시 관찰로부터 성공적으로 수행되었음을 시사한다.
- 이 접근법은 1인칭 모방 학습과 경쟁력이 있으며, 경우에 따라 true-reward RL에 근접한 성능을 보인다; 1인칭 정책을 직접 제3자 도메인에 적용하는 것은 실패할 수 있다.
- 하이퍼파라미터 분석은 λ의 균형이 중요함을 보여주며, 약 4 프레임의 look-ahead 윈도우가 모든 과제에서 잘 작동한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.