Skip to main content
QUICK REVIEW

[論文レビュー] Adaptive Correlation-Weighted Intrinsic Rewards for Reinforcement Learning

Viet Bac Nguyen, Phuong Thai Nguyen|arXiv (Cornell University)|Feb 27, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

ACWIはBeta Networkと相関ベースの目的関数を用いて状態依存の内発的報酬ウェイトを学習し、スパース報酬強化学習における探索を適応させ、安定性とサンプル効率を向上させる。

ABSTRACT

We propose ACWI (Adaptive Correlation Weighted Intrinsic), an adaptive intrinsic reward scaling framework designed to dynamically balance intrinsic and extrinsic rewards for improved exploration in sparse reward reinforcement learning. Unlike conventional approaches that rely on manually tuned scalar coefficients, which often result in unstable or suboptimal performance across tasks, ACWI learns a state dependent scaling coefficient online. Specifically, ACWI introduces a lightweight Beta Network that predicts the intrinsic reward weight directly from the agent state through an encoder based architecture. The scaling mechanism is optimized using a correlation based objective that encourages alignment between the weighted intrinsic rewards and discounted future extrinsic returns. This formulation enables task adaptive exploration incentives while preserving computational efficiency and training stability. We evaluate ACWI on a suite of sparse reward environments in MiniGrid. Experimental results demonstrate that ACWI consistently improves sample efficiency and learning stability compared to fixed intrinsic reward baselines, achieving superior performance with minimal computational overhead.

研究の動機と目的

  • スパース報酬のRLにおける内発的報酬強度の適応を通じた探索の動機付け。
  • 内発的報酬の軽量で状態認識型スケーリング機構の開発。
  • 内発的ボーナスを将来の外的リターンへと整合させる相関ベースの目的関数の導入。
  • ICMを使用する際の計算オーバーヘッドを最小限に抑えつつ訓練の安定性を確保。
  • MiniGridタスク全体でのサンプル効率の改善を実証。

提案手法

  • 内発的報酬の状態依存モ multiplier beta(s) を出力するBeta Networkの導入。
  • intrinsic rewards を r̄_t = R^E_t + α * beta(s_t) * I_t^+ として I_t^+ は標準化された前向き誤差から得られる。
  • 訓練を安定化させるために I_t^+ を標準化・整流。
  • minibatch 全体で beta(s_t)*I_t^+ を割引エクステリックリターン G_t^E に整合させる相関損失 L_corr を最小化して beta(s) を訓練。
  • 収束を防ぐために log beta の正則化を行い L_β = L_corr + λ_reg * L_reg の安定性重み付き総目的関数を用意。
  • betaネットワークは PPO アップデートの前に1回だけ更新し、beta最適化中はポリシーパラメータを固定。
  • ACWIをPPOとICMと統合し、相関駆動のbeta更新と学習目的関数に augmented reward signal を組み込んで学習。

実験結果

リサーチクエスチョン

  • RQ1状態依存の内発的報酬ウェイトは固定係数よりスパース報酬の探索を改善できるか?
  • RQ2相関ベースの目的は状態全体で内発的ボーナスを将来の外的リターンへ効果的に整合させるか?
  • RQ3ACWIはMiniGrid環境でサンプル効率と訓練安定性にどのような影響を与えるか?
  • RQ4ACWIは固定βのベースラインおよびPPO単体と比較して、さまざまなタスク構造でどのように性能を示すか?

主な発見

  • ACWIは複数のMiniGridタスクで固定内発的ベースラインと比較してサンプル効率と学習安定性を一貫して向上させる。
  • Beta Networkは訓練を通じて適応する状態依存のbeta分布を学習し、タスクが学習されるにつれて低い値へとシフトすることが多い。
  • 外的信号が極めて希少な環境では、相関勾配が有用でないためACWIは適応が限定的で、固定スケーリングに近い振る舞いを示すが依然として安定。
  • ACWIは乱数種間の分散を減らし、希少だが有用な外的報酬を持つタスクで初期学習を加速する。
  • 固定βベースラインは慎重な調整を要し、環境とシードに対する感度がACWIより大きい。
  • Beta分布はタスクに応じて多峰性を形成し、状態空間のタスク関連領域と整合する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。