Skip to main content
QUICK REVIEW

[논문 리뷰] Representation Learning for Out-Of-Distribution Generalization in Reinforcement Learning

Andrea Dittadi, Frederik Träuble|arXiv (Cornell University)|2021. 06. 13.
Reinforcement Learning in Robotics인용 수 4
한 줄 요약

이 논문은 제어 작업(예: 도달 및 밀기)에서 분포 외 일반화(out-of-distribution, OOD)를 통한 강화학습을 위한 표현 학습 평가를 제안한다. 10,000개 이상의 정책을 훈련시어 표현 성질이 OOD 성능에 어떻게 영향을 미치는지 체계적으로 분석하고, 도메인 랜덤화나 미세조정 없이 제로샷 시뮬레이션-진짜 세계 전이를 입증한다.

ABSTRACT

Learning data representations that are useful for various downstream tasks is a cornerstone of artificial intelligence. While existing methods are typically evaluated on downstream tasks such as classification or generative image quality, we propose to assess representations through their usefulness in downstream control tasks, such as reaching or pushing objects. By training over 10,000 reinforcement learning policies, we extensively evaluate to what extent different representation properties affect out-of-distribution (OOD) generalization. Finally, we demonstrate zero-shot transfer of these policies from simulation to the real world, without any domain randomization or fine-tuning. This paper aims to establish the first systematic characterization of the usefulness of learned representations for real-world OOD downstream tasks.

연구 동기 및 목표

  • 실세계 분포 외(OOD) 제어 작업을 위한 학습된 표현의 체계적 특성화를 수립하기 위해.
  • 분류나 이미지 품질이 아닌, 도달 및 밀기와 같은 후행 제어 작업에서의 성능을 통해 표현 유용성을 평가하기 위해.
  • 다양한 표현 성질이 강화학습에서 OOD 일반화에 어떻게 영향을 미치는지 조사하기 위해.
  • 도메인 랜덤화나 미세조정 없이 시뮬레이션에서 실제 세계로의 제로샷 전이를 가능하게 하기 위해.

제안 방법

  • 다양한 OOD 일반화 시나리오에서 표현 성능를 평가하기 위해 10,000개 이상의 강화학습 정책을 훈련시었다.
  • 표현 유용성의 후행 평가 작업으로 제어 작업(예: 물체 도달 및 밀기)을 사용하였다.
  • 상태 공간과 행동 공간의 분포 이동에 대한 일반화를 지원하는 능력에 따라 표현을 평가하였다.
  • 도메인 랜덤화나 미세조정 없이 실제 세계에 배포하기 위해 제로샷 전이 프rotocol을 적용하였다.
  • OOD 일반화에 대한 영향을 분리하기 위해 표현 학습 구성 요소를 체계적으로 변화시켰다.

실험 결과

연구 질문

  • RQ1다양한 표현 학습 성질은 강화학습에서 분포 외 일반화에 어떻게 영향을 미치는가?
  • RQ2시뮬레이션에서 학습된 표현은 얼마나 실세계 제어 작업으로의 제로샷 전이를 가능하게 하는가?
  • RQ3후행 제어 작업에서 강력한 OOD 일반화 성능를 예측하는 데 가장 유용한 표현 특성은 무엇인가?
  • RQ4분류 정확도가 아닌 제어 성능을 통해 표현 학습을 효과적으로 평가할 수 있는가?

주요 결과

  • 제어 작업 유용성에 중점을 둔 표현 학습은 강화학습에서 분포 외 일반화 성능를 크게 향상시켰다.
  • 연구는 도메인 랜덤화나 미세조정 없이도 성공적인 제로샷 시뮬레이션-진짜 세계 전이를 입증하였다.
  • 분리성과 불변성과 같은 표현 성질은 OOD 일반화 성능를 강력하게 예측하는 요소로 확인되었다.
  • 도달 및 밀기와 같은 제어 작업은 기존의 시각 벤치마크를 초월해 표현 유용성 평가에 효과적인 도구로 기능한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.