[논문 리뷰] Reinforcement Learning with Prototypical Representations
Proto-RL은 self-supervised 학습으로 학습된 연속 표현과 프로토타입 이산 구조를 결합해 탐색을 촉진하고 정책 학습을 개선하는 모델-프리 RL 방법으로 BYOL과 SwAV에서 영감을 얻었다.
Learning effective representations in image-based environments is crucial for sample efficient Reinforcement Learning (RL). Unfortunately, in RL, representation learning is confounded with the exploratory experience of the agent -- learning a useful representation requires diverse data, while effective exploration is only possible with coherent representations. Furthermore, we would like to learn representations that not only generalize across tasks but also accelerate downstream exploration for efficient task-specific training. To address these challenges we propose Proto-RL, a self-supervised framework that ties representation learning with exploration through prototypical representations. These prototypes simultaneously serve as a summarization of the exploratory experience of an agent as well as a basis for representing observations. We pre-train these task-agnostic representations and prototypes on environments without downstream task information. This enables state-of-the-art downstream policy learning on a set of difficult continuous control tasks.
연구 동기 및 목표
- 강화 학습에서 탐색을 향상시키기 위해 비지도 프로토타입 표현의 사용을 모티브로 삼는다.
- 연속 표현과 이산 프로토타입을 활용하는 모델-프리 알고리즘을 개발한다.
- BYOL과 SwAV의 자기지도 학습 아이디어를 RL 설정에 적용한다.
- 프로토타입이 엔트로피 추정과 탐색 안정성에 미치는 영향을 분석한다.
제안 방법
- BYOL에서처럼 predictor와 target network를 사용하고, target은 지수 이동 평균으로 업데이트한다.
- SwAV 유사 손실 및 대상 생성 절차를 통해 프로토타입 세트를 학습한다.
- 연속 관찰을 대조하고 비정상(non-stationary) RL에 적합한 데이터 증강을 활용한다.
- 프로토타입 기반 최근접 이웃 통계에서 파생된 엔트리-기반 엔트로피 추정으로 내부 보상을 계산한다.
- 탐색 RL 에이전트의 그래디언트를 차단해 표현 학습과 RL 목적을 분리한다.
실험 결과
연구 질문
- RQ1연속 표현과 프로토타입 이산 구조를 공동 학습하는 것이 RL에서 탐색과 정책 성능을 향상시키는가?
- RQ2프로토타입 기반 엔트로피 추정이 탐색 안정성과 샘플 효율성에 어떤 영향을 미치는가?
- RQ3BYOL/SwAV에서 영감받은 자기지도 목표를 비정상(non-stationary) RL 설정에 효과적으로 적용할 수 있는가?
- RQ4Proto-RL의 성능에서 사전 학습 상태 엔트로피와 내부 보상의 역할은 무엇인가?
주요 결과
- Proto-RL은 연속 표현과 이산 프로토타입을 활용하여 탐색을 향상시킨다.
- 프로토타입 기반 엔트로피 추정은 무작위 배치와 비교해 내부 보상의 분산을 감소시킨다.
- 일부 구성요소에 대한 그래디언트 차단은 표현 학습과 RL 목적을 분리하는 데 도움이 된다.
- 내재 보상은 Proto-RL의 다운스트림 탐색을 가속화한다.
- 사전 학습 없이 RL에 BYOL과 SwAV의 아이디어를 통합한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.