[논문 리뷰] Imitating Latent Policies from Observation
ILPO는 전문가 상태 관찰로부터 잠재 정책을 학습하고 소량의 환경 상호작용을 사용하여 잠재 행동을 실제 행동으로 매핑함으로써 전문가 행동 없이도 모방이 가능하고 Observation에서의 BC를 여러 도메인에서 능가한다.
In this paper, we describe a novel approach to imitation learning that infers latent policies directly from state observations. We introduce a method that characterizes the causal effects of latent actions on observations while simultaneously predicting their likelihood. We then outline an action alignment procedure that leverages a small amount of environment interactions to determine a mapping between the latent and real-world actions. We show that this corrected labeling can be used for imitating the observed behavior, even though no expert actions are given. We evaluate our approach within classic control environments and a platform game and demonstrate that it performs better than standard approaches. Code for this work is available at https://github.com/ashedwards/ILPO.
연구 동기 및 목표
- 전문가 행동에 접근 권한 없이 상태 관찰로부터 잠재 정책을 추론한다.
- 잠재 행동에 조건화된 다음 상태를 예측하는 잠재 순방향 동역학 모델을 학습한다.
- 최소한의 환경 상호작용을 사용하여 잠재 행동을 실제 행동과 정렬시키는 행동 재매핑 메커니즘을 개발한다.
- 고전 제어 작업과 시각적 플랫폼 게임에서 ILPO의 효과를 BCO 같은 비교 기준과 대조하여 입증한다.
제안 방법
- 상태를 고려할 때 앞으로의 동역학 모델 G와 잠재 행동 z에 대한 사전분포를 함께 학습하는 잠재 정책 네트워크를 훈련한다.
- G(s, z)를 이용해 상태 차이 Δt = st+1 − st를 예측하고 z의 최솟값보다 ||Δt − G(Ep(st), z)||^2를 최소화하여 다모드 전이를 포착한다.
- 잠재 분포 하에서의 기대 다음 상태를 관찰된 다음 상태와 맞추어 잠재 정책 πω(z|st)를 학습한다.
- 한정된 환경 상호작용으로 학습된 잠재 행동을 실제 행동으로 매핑하는 πξ(a|z, Ea(st))의 행동 재매핑 네트워크를 결합한다.
- 관찰로부터의 오프라인 잠재 정책 학습 후 소수의 상호작용을 통한 근거-실제 행동 재매핑의 2단계 프로세스를 사용하여 모방을 가능하게 한다.
실험 결과
연구 질문
- RQ1관찰로부터 추론된 잠재 행동이 전문가 행동에 접근 권한 없이도 기저 행동의 효과를 포착할 수 있는가?
- RQ2잠재 행동을 실제 행동과 정렬시키려면 환경 상호작용이 얼마나 필요한가?
- RQ3오프라인 잠재 동역학 학습과 최소한의 행동 재매핑이 더 많은 환경 데이터가 필요한 Observation으로부터의 모방보다 성능이 좋게 나타나는가?
- RQ4이 접근법이 이산 행동 MDP와 고차원 관찰을 가진 시각적 플랫폼 게임에서 강건한가?
주요 결과
- ILPO는 카트폴과 아크로바트에서 100회 미만의 환경 단계로도 전문가 수준의 성능을 달성한다.
- ILPO는 고전 제어 작업에서 Observation으로부터의 행동 복제(BC)를 능가한다.
- CoinRun에서 ILPO는 BCO를 상회하지만 모든 시드나 레벨에서 전문가 성능에 도달하지 못할 수 있으며, 고차원 시각적 작업의 난이도가 더 높음을 반영한다.
- 잠재 행동 집합 크기 |Z|를 실제 행동 수 |A|에 가깝게 선택하는 것이 이점이 있지만, 다른 크기로도 학습이 가능하다.
- 행동 재매핑 단계는 잠재 행동을 실제 행동과 정렬시키기 위해 비교적 적은 상호작용이 필요하여, Dynamics를 온라인으로 학습하는 BCO에 비해 샘플 복잡도를 줄인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.