[논문 리뷰] Pretraining Representations for Data-Efficient Reinforcement Learning
SGI (self-supervised pretraining with SPR, goal-conditioned RL, and inverse dynamics)를 통해 unlabeled 데이터에서 오프라인으로 풍부한 표현을 학습하고 작은 태스크 데이터로 미세 조정하여 데이터 효율적인 RL을 달성하며, 특히 더 큰 모델과 더 질 좋은 프리트레이닝 데이터에서 Atari-100k 성능이 강하게 나타납니다.
Data efficiency is a key challenge for deep reinforcement learning. We address this problem by using unlabeled data to pretrain an encoder which is then finetuned on a small amount of task-specific data. To encourage learning representations which capture diverse aspects of the underlying MDP, we employ a combination of latent dynamics modelling and unsupervised goal-conditioned RL. When limited to 100k steps of interaction on Atari games (equivalent to two hours of human experience), our approach significantly surpasses prior work combining offline representation pretraining with task-specific finetuning, and compares favourably with other pretraining methods that require orders of magnitude more data. Our approach shows particular promise when combined with larger models as well as more diverse, task-aligned observational data -- approaching human-level performance and data-efficiency on Atari in our best setting. We provide code associated with this work at https://github.com/mila-iqia/SGI.
연구 동기 및 목표
- 무라의 unlabeled/offline 데이터를 활용하여 표현 학습을 통해 깊은 RL의 데이터 효율성 향상을 목표로 한다.
- 다양한 환경 요소를 포착하는 다목적 프리training 체계를 제안한다.
- 오프라인 SGI 프리training이 데이터 품질과 모델 크기에 따라 Atari-100k에서 어떻게 확장되는지 평가한다.
제안 방법
- 세 가지 자기지도 목표를 통해 공유 인코더를 프리트레이닝한다: 잠재 다이나믹스(잠재 공간에서의 순방향 예측), 비지도 목표-조건 RL, 역동성 모델링.
- 공유 인코더를 이용한 오프라인 프리트레이닝과 태스크 특화 RL 손실로 파인튜닝하는 2단계 파이프라인을 사용하되, 인코더를 고정하거나 학습률을 줄여 조정한다.
- 목표들을 잠재 공간에서 작동하도록 구성하고 매개변수를 공유하며, 안정성을 위해 SPR의 지수이동평균 타깃 네트워크를 사용한다.
- 다운스트림 태스크에 Rainbow 스타일 Q-학습을 적용하고, 강건한 표현을 촉진하기 위해 강화된 SPR 손실을 도입한다.
- Atari-100k(환경 스텝 100k)에서 다양한 프리training 데이터 품질(무작위, 탐색적, 약한, 혼합, 오프라인 DQN 데이터)을 평가한다.
실험 결과
연구 질문
- RQ1오프라인 SGI 프리training이 이전 프리training 베이스라인 대비 Atari-100k에서 데이터 효율성을 향상시키는가?
- RQ2데이터 품질과 모델 크기가 SGI의 파인튜닝 성능에 어떤 영향을 미치는가?
- RQ3여러 SELF-SUPERVISED 목표를 결합하는 것이 단일 목표보다 더 이익이 큰가?
- RQ4사전학습 표현을 보존하기 위해 파인튜닝을 어떻게 수행해야 하는가(예: 학습률 스케줄링, 동결 등)?
주요 결과
| Method | Mdn | Mean | $>$ H | $>$ 0 | Data |
|---|---|---|---|---|---|
| SimPLe | 0.144 | 0.443 | 2 | 26 | 0 |
| DER | 0.161 | 0.285 | 2 | 26 | 0 |
| DrQ | 0.268 | 0.357 | 2 | 24 | 0 |
| SPR | 0.415 | 0.704 | 7 | 26 | 0 |
| SGI-None | 0.343 | 0.565 | 3 | 26 | 0 |
| SGI-R | 0.326 | 0.888 | 5 | 26 | 6M |
| SGI-E | 0.456 | 0.838 | 6 | 26 | 6M |
| SGI-W | 0.589 | 1.144 | 8 | 26 | 5M |
| SGI-M | 0.679 | 1.149 | 9 | 26 | 3M |
| SGI-M/L | 0.753 | 1.598 | 9 | 26 | 6M |
- SGI는 Atari-100k에서 강한 데이터 효율성을 달성하며 SGI-M/L은 중앙값 HNS 0.753으로 인간 수준에 근접하다.
- SGI-M(3M 데이터)은 같은 데이터에서 ATC-M보다 우수하고, SGI-E는 훨씬 적은 프리트레이닝 데이터로도 다른 탐색적 프리training 베스트라인과 동등하거나 능가한다.
- 데이터 품질과 모델 크기에 따라 성능이 확장되며, 사전에 더 큰 인코더를 사용하면 이점이 커지고, 더 질 높은 오프라인 데이터가 파인튜닝 성능을 높인다.
- 세 가지 SSL 목표를 모두 결합하면 최상의 성능을 얻으며, 역동성 모델링은 표현 붕괴를 피하는 데 도움이 된다.
- 사전학습 표현의 순수 파인튠은 성능 저하를 가져오며, 파인튜닝 학습률을 줄이고 때로는 인코더를 동결하는 것이 우수한 결과를 낳는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.