[논문 리뷰] Adaptive Correlation-Weighted Intrinsic Rewards for Reinforcement Learning
ACWI는 Beta Network를 통해 상태 의존적 내재 보상의 가중치를 학습하고 상관관계 기반 목표를 통해 희소 보상 RL에서 탐색을 적응시켜 안정성과 샘플 효율성을 향상시킨다.
We propose ACWI (Adaptive Correlation Weighted Intrinsic), an adaptive intrinsic reward scaling framework designed to dynamically balance intrinsic and extrinsic rewards for improved exploration in sparse reward reinforcement learning. Unlike conventional approaches that rely on manually tuned scalar coefficients, which often result in unstable or suboptimal performance across tasks, ACWI learns a state dependent scaling coefficient online. Specifically, ACWI introduces a lightweight Beta Network that predicts the intrinsic reward weight directly from the agent state through an encoder based architecture. The scaling mechanism is optimized using a correlation based objective that encourages alignment between the weighted intrinsic rewards and discounted future extrinsic returns. This formulation enables task adaptive exploration incentives while preserving computational efficiency and training stability. We evaluate ACWI on a suite of sparse reward environments in MiniGrid. Experimental results demonstrate that ACWI consistently improves sample efficiency and learning stability compared to fixed intrinsic reward baselines, achieving superior performance with minimal computational overhead.
연구 동기 및 목표
- 희소 보상 RL에서 내재 보상의 강도를 조정하여 탐색을 자극한다.
- 가벼우면서도 상태 인지형의 내재 보상 스케일링 메커니즘을 개발한다.
- 향후 외재 보상과 내재 보너스를 일치시키기 위한 상관관계 기반 목표를 도입한다.
- ICM를 사용하면서도 최소한의 계산 오버헤드로 학습의 안정성을 확보한다.
- MiniGrid 과제 전반에서 향상된 샘플 효율성을 입증한다.
제안 방법
- 상태 의존 승수 beta(s)를 내재 보상에 대해 출력하는 Beta Network를 도입한다.
- 내재 보상을 r̄_t = R^E_t + α * beta(s_t) * I_t^+ 로 결합하되 I_t^+는 표준화된 순방향 예측 오차에서 얻는다.
- 학습 안정화를 위해 내재 보상을 표준화하고 수정하여 I_t^+를 생성한다.
- 미니배치에서 beta(s_t)*I_t^+를 할인된 외재 수익 G_t^E와 맞추는 상관 손실 L_corr를 최소화하여 beta(s) 학습한다.
- L_reg로 로그 beta를 정규화하고 붕괴를 방지하며 안정성 가중 총 목적함수 L_β = L_corr + λ_reg * L_reg를 사용한다.
- PPO 업데이트 전에 한 번의 반복마다 beta 네트워크를 업데이트하고, beta 최적화 중에는 정책 매개변수를 고정한다.
- 학습 목표에서 확장된 보상 신호와 상관 구동 beta 업데이트를 사용하여 ACWI를 PPO 및 ICM과 통합한다.
실험 결과
연구 질문
- RQ1상태 의존적 내재 보상 가중치가 고정 계수보다 희소 보상 RL에서 탐색을 향상시킬 수 있는가?
- RQ2상관관계 기반 목표가 상태 전반에 걸쳐 내재 보너스를 향후 외재 수익과 효과적으로 일치시키는가?
- RQ3ACWI가 MiniGrid 환경에서 샘플 효율성과 학습 안정성에 미치는 영향은 무엇인가?
- RQ4다양한 작업 구조에서 고정된 β 기준치와 PPO 단독에 비해 ACWI의 성능은 어떠한가?
주요 결과
- ACWI는 여러 MiniGrid 과제에서 고정 내재 기준선에 비해 샘플 효율성과 학습 안정성을 일관되게 향상시킨다.
- Beta Network는 학습 중 적응하는 구조화된 상태 의존 beta 분포를 학습하며, 과제가 학습됨에 따라 종종 낮은 값 쪽으로 이동한다.
- 외재 신호가 극히 희박한 환경에서 상관 그래디언트가 비정보적이므로 ACWI의 적응은 제한적이며 고정 스케일링과 비슷하게 작동하되 여전히 안정적이다.
- ACWI는 무작위 시드 간 분산을 줄이고 희소하지만 정보가 있는 외재 보상 과제에서 초기 학습을 가속화한다.
- 고정된 β 기준선은 신중한 조정이 필요하고 ACWI보다 환경 및 시드에 더 민감하게 반응한다.
- Beta 분포는 일부 과제에서 다모드 구조를 형성하는 경향이 있으며, 상태 공간의 과제 관련 영역과 일치한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.