[논문 리뷰] Transfer Learning for Related Reinforcement Learning Tasks via Image-to-Image Translation
본 논문은 비정렬 GAN을 통해 시각적 전송을 제어 정책과 분리함으로써 제로샷 전송이 가능하고 관련 RL 태스크에서 샘플 효율성 향상을 가능하게 한다는 것을 Breakout 변형들 및 Road Fighter에서 시연했고, 불완전한 시연으로부터의 imitation learning이 결과를 향상시킨다.
Despite the remarkable success of Deep RL in learning control policies from raw pixels, the resulting models do not generalize. We demonstrate that a trained agent fails completely when facing small visual changes, and that fine-tuning---the common transfer learning paradigm---fails to adapt to these changes, to the extent that it is faster to re-train the model from scratch. We show that by separating the visual transfer task from the control policy we achieve substantially better sample efficiency and transfer behavior, allowing an agent trained on the source task to transfer well to the target tasks. The visual mapping from the target to the source domain is performed using unaligned GANs, resulting in a control policy that can be further improved using imitation learning from imperfect demonstrations. We demonstrate the approach on synthetic visual variants of the Breakout game, as well as on transfer between subsequent levels of Road Fighter, a Nintendo car-driving game. A visualization of our approach can be seen in https://youtu.be/4mnkzYyXMn4 and https://youtu.be/KCGTrQi6Ogo .
연구 동기 및 목표
- 표준 딥 RL이 작은 시각 변화에 일반화에 실패하고 파인튜닝이 전이 학습에 부적합하다는 것을 입증한다.
- 시각적 전송을 정책 학습과 분리하여 시각적으로 다르지만 동적으로 관련된 태스크들 간에 효과적인 전이를 가능하게 하자고 제안한다.
- 비정렬 GANs가 타깃 도메인 비주얼을 소스 도메인 비주얼로 매핑하여 학습된 정책을 재사용할 수 있음을 보인다.
- GAN 매핑이 불완전할 때 전이된 정책을 불완전한 시연으로 간주하고 샘플 효율성을 개선하기 위해 imitation learning 프레임워크를 제안한다.
제안 방법
- 기본 작업(예: Breakout)에서 소스 RL 에이전트를 학습하고 시각적으로 변경된 타깃 작업에서 테스트한다.
- 다양한 고정/신규 레이어 구성으로 파인튜닝을 통한 표준 전이를 시도하고 전이가 실패하는 것을 관찰한다.
- 쌍 데이터 없이 unaligned GANs(UNIT/CycleGAN 프레임워크)를 사용하여 타깃 도메인에서 소스 도메인으로의 시각 매핑 G를 학습한다.
- 원 정책 파라미터 θ를 사용한 소스 정책으로 대상 환경에서 상호작용하여 전이된 정책 π(a|G(t); θ)를 평가한다.
- GAN 매핑이 불완전할 때 전이된 정책을 불완전한 시연으로 간주하고 샘플 효율성을 개선하기 위해 imitation learning을 적용한다.
- 논문에 제시된 알고리즘 세부사항에 따라 imitation-learning 업데이트를 on-policy RL(A2C) 업데이트와 선택적으로 결합한다.
실험 결과
연구 질문
- RQ1깊은 RL 정책이 소스 작업에서 학습되어 시각적으로 변경된 타깃 작업으로의 일반화가 가능하며, dynamics의 변화가 최소한일 때도 가능한가?
- RQ2다양한 시각 변화가 있는 RL 태스크에서 파인튜닝이 효과적인 전이 방법인가, 아니면 학습을 방해하는가?
- RQ3시각적 전송을 제어 역학으로부터 분리함으로써 서로 다른 레벨/버전 간에 지식을 전달할 수 있는가?
- RQ4제로샷 시각 전송 via unaligned GANs가 사용 가능한 정책을 가능하게 하는가? 또한 GAN이 불완전할 때 imitation learning이 그런 정책을 개선할 수 있는가?
주요 결과
- Fine-tuning은 Breakout 변형들 간의 전송에 거의 실패하거나 때로는 처음부터 다시 학습하는 것만큼 느리거나 더 나쁘게 수렴한다.
- 타깃 비주얼 전송 없이 Road Fighter 레벨 간의 전송은 제로 스코어를 초래하여 정책 실패를 나타낸다.
- G가 타깃 비주얼을 소스 비주얼로 매핑하는 zero-shot 시각 전송은 타깃 상호작용이 훨씬 적은 상태에서 높은 타깃 태스크 점수를 가능하게 하여 샘플 효율적인 전송을 실현한다.
- GAN 선택 중 UNIT 기반의 번역이 Breakout에서 CycleGAN보다 종종 우수한 반면 Road Fighter에서는 결과가 더 혼재하고, GAN 품질이 정책 성능에 직접적인 영향을 한다.
- 불완전한 GAN 기반 시연으로부터의 imitation learning은 목표 태스크 성능과 샘플 효율성을 추가로 향상시켜, 처음부터 학습하는 것보다 훨씬 적은 환경 상호작용으로도 높은 점수를 달성하게 한다.
- 이 방법은 다운스트림 RL 성능을 기반으로 하는 비 alignment GAN 평가의 실용적이고 작업 지향적 지표를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.