[논문 리뷰] Self-Supervised Policy Adaptation during Deployment
PAD는 보상 없이 배치 중에 사전 학습된 정책이 자체 감독적 적응을 계속 수행하도록 하여 시뮬레이션과 실제 로봇에서 보지 못한 환경 변화에 대한 일반화를 향상시킨다.
In most real world scenarios, a policy trained by reinforcement learning in one environment needs to be deployed in another, potentially quite different environment. However, generalization across different environments is known to be hard. A natural solution would be to keep training after deployment in the new environment, but this cannot be done if the new environment offers no reward signal. Our work explores the use of self-supervision to allow the policy to continue training after deployment without using any rewards. While previous methods explicitly anticipate changes in the new environment, we assume no prior knowledge of those changes yet still obtain significant improvements. Empirical evaluations are performed on diverse simulation environments from DeepMind Control suite and ViZDoom, as well as real robotic manipulation tasks in continuously changing environments, taking observations from an uncalibrated camera. Our method improves generalization in 31 out of 36 environments across various tasks and outperforms domain randomization on a majority of environments.
연구 동기 및 목표
- RL 에이전트를 보지 못한 환경에 배포할 때 안정적인 정책 일반화를 동기화한다.
- 보상 없이 배포 중에 작동하는 자체 감독 적응 신호를 제안한다.
- 다양한 시뮬레이션 및 실제 세계 작업에서 일반화를 개선함을 입증한다.
제안 방법
- 특징 추출기와 태스크 헤드를 공유하도록 정책 네트워크를 분리한다.
- 중간 특징에서 보조 자체 감독 과제(Inverse dynamics 또는 Rotation prediction)를 사용한다.
- 학습 시에는 RL 목표와 자체 감독 목표를 모두 학습하고, 배포 시에는 적응을 위해 자체 감독만 사용한다.
- 새로운 관찰을 사용하여 테스트 시점에 자체 감독 헤드와 특징 추출기를 온라인으로 업데이트한다.
실험 결과
연구 질문
- RQ1배포 중 보상 신호가 없을 때 자체 감독으로 정책 적응이 가능할까?
- RQ2온라인 자체 감독 적응이 시각 기반 RL에서 보지 못한 환경 변화에 대한 일반화를 개선할까?
- RQ3어떤 자체 감독 과제(Inverse dynamics, Rotation, CURL)가 배포 시 적응을 가장 잘 지원할까?
- RQ4다양한 시뮬레이션 도메인과 실제 로봇 작업에서 PAD의 성능은 어떠한가?
- RQ5온라인 학습과 오프라인 학습의 영향은 PAD의 효과에 어떠한 차이를 보일까?
주요 결과
- PAD는 22개의 DMControl 테스트 환경 중 19개에서 일반화를 개선했고, 모든 CRLMaze 테스트 환경에서 일반화를 향상시켰다.
- PAD는 다양한 작업과 설정에서 도메인 랜덤화보다 일반적으로 더 우수한 성능을 보이는 경우가 많다.
- 자체 감독으로서의 Inverse dynamics는 모터 제어 작업에서 더 일관된 이익을 제공하는 반면, Rotation은 네비게이션 작업의 현장 이해를 돕는다.
- 배포 시 온라인 학습은 적응을 크게 향상시키며, 오프라인 버전은 이익이 감소하는 경향이 있다.
- PAD는 Kinova 로봇으로의 Sim2Real 전이에서 보정되지 않은 카메라 입력을 사용한 여러 환경에 적용 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.