QUICK REVIEW

[논문 리뷰] Dynamics-Aware Embeddings

WILLIAM F. WHITNEY, Rajat Agarwal|arXiv (Cornell University)|2020. 04. 30.

Reinforcement Learning in Robotics참고 문헌 44인용 수 10

한 줄 요약

이 논문은 강화학습에서 샘플 효율성을 향상시키기 위해 상태와 행동을 함께 표현하는 동역학 인식 임베딩을 제안한다. 임베디드 상태와 행동에서 미래 상태를 예측함으로써, 이 방법은 효율적인 정책 학습을 가능하게 하며, 픽셀 입력에서 단지 100만~200만 단계의 학습으로 높은 성능의 제어를 달성한다. 행동 임베딩만으로도 저차원 제어 과제에서 성능을 향상시킨다.

ABSTRACT

In this paper we consider self-supervised representation learning to improve sample efficiency in reinforcement learning (RL). We propose a forward prediction objective for simultaneously learning embeddings of states and actions. These embeddings capture the structure of the environment's dynamics, enabling efficient policy learning. We demonstrate that our action embeddings alone improve the sample efficiency and peak performance of model-free RL on control from low-dimensional states. By combining state and action embeddings, we achieve efficient learning of high-quality policies on goal-conditioned continuous control from pixel observations in only 1-2 million environment steps.

연구 동기 및 목표

자기지도 표현 학습을 통해 강화학습에서 샘플 효율성을 향상시키기 위해.
환경의 기본 동역학을 반영하는 상태와 행동의 통합 임베딩을 학습하기 위해.
저차원 제어와 고차원 픽셀 기반 연속 제어 모두에서 효율적인 정책 학습을 가능하게 하기 위해.
행동 임베딩만으로도 모델-프리 강화학습 성능을 향상시킬 수 있음을 보여주기 위해.

제안 방법

임베디드 상태와 행동에서 미래 상태를 예측하는 전방 예측 목표를 제안한다.
상태와 행동을 공유 임베딩으로 매핑하는 신경망을 훈련하여 동역학적 구조를 유지한다.
예측 손실을 자기지도 신호로 사용하여 환경 보상 없이 표현을 사전 훈련한다.
상태 및 행동 임베딩을 함께 최적화하여 일반화 능력과 후속 정책 학습 성능을 향상시킨다.
微fine-tuning 없이 학습된 임베딩을 후속 RL 에이전트에 적용한다.

실험 결과

연구 질문

RQ1통합 상태-행동 임베딩이 모델-프리 강화학습에서 샘플 효율성을 향상시킬 수 있는가?
RQ2저차원 제어 과제에서 행동 임베딩만으로 성능 향상이 얼마나 효과적인가?
RQ3동역학 인식 임베딩이 목표 조건 제어에서 픽셀 관측에서 효율적인 정책 학습을 가능하게 하는가?
RQ4통합 상태-행동 표현은 후속 강화학습 성능에 어떤 기여를 하는가?

주요 결과

행동 임베딩만으로도 저차원 제어 과제에서 모델-프리 강화학습의 샘플 효율성과 최고 성능이 크게 향상된다.
이 방법은 픽셀 기반 연속 제어 과제에서 환경 단계 100만~200만 단계 내에 고품질의 정책 학습을 달성한다.
통합 상태 및 행동 임베딩은 환경의 동역학을 포착하는 효과적인 표현 학습을 가능하게 한다.
자기지도 전방 예측 목표는 보상 신호 없이도 유용한 동역학 인식 표현을 성공적으로 학습한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.