Skip to main content
QUICK REVIEW

[論文レビュー] PRISM: Parallel Reward Integration with Symmetry for MORL

F. van der Knaap, Kejiang Qian|arXiv (Cornell University)|Feb 20, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

PRISMはReward Symmetry Network (ReSymNet) と Symmetry Regulariser (SymReg) を導入し、長期報酬が希薄な異質的多目的強化学習(MORL)に対処。MuJoCoベンチマークで Pareto-front の大幅な改善を実現。

ABSTRACT

This work studies heterogeneous Multi-Objective Reinforcement Learning (MORL), where objectives can differ sharply in temporal frequency. Such heterogeneity allows dense objectives to dominate learning, while sparse long-horizon rewards receive weak credit assignment, leading to poor sample efficiency. We propose a Parallel Reward Integration with Symmetry (PRISM) algorithm that enforces reflectional symmetry as an inductive bias in aligning reward channels. PRISM introduces ReSymNet, a theory-motivated model that reconciles temporal-frequency mismatches across objectives, using residual blocks to learn a scaled opportunity value that accelerates exploration while preserving the optimal policy. We also propose SymReg, a reflectional equivariance regulariser that enforces agent mirroring and constrains policy search to a reflection-equivariant subspace. This restriction provably reduces hypothesis complexity and improves generalisation. Across MuJoCo benchmarks, PRISM consistently outperforms both a sparse-reward baseline and an oracle trained with full dense rewards, improving Pareto coverage and distributional balance: it achieves hypervolume gains exceeding 100\% over the baseline and up to 32\% over the oracle. The code is at \href{https://github.com/EVIEHub/PRISM}{https://github.com/EVIEHub/PRISM}.

研究の動機と目的

  • 密な報酬が学習を支配する MORL における報酬の希薄化と非一様性に対処する。
  • 対称性を通じた帰納バイアスを導入し、一般化とサンプル効率を改善する。
  • オフ・ザ・シェルフの MORL アルゴリズムと互換性のあるプラグアンドプレイの報酬整形コンポーネントを開発する。
  • 反射同等性を持つサブスペースの理論的一般化保証を提供する。
  • MuJoCo MORLベンチマークで希薄報酬ベースラインと密なオラクルデルタを上回る経験的利得を示す。

提案手法

  • ReSymNetを導入。これは疎な報酬を密な各手番信号へ変換する残差ネットワークベースの報酬予測器で、密な報酬を監視信号として使用する。
  • ReSymNetをアンサンブルと反復的なオ(on-policy)改良で訓練し、瞬時報酬を蓄積された疎報酬と整列させる。
  • SymRegを開発。反射対称性へ対応する正則化項で、π(Lg(s)) = Kg(π(s)) を課し、ポリシー探索を反射同等性サブスペースへ制約する。
  • 反射同等性サブスペースの被覆数が元のポリシー空間より大きくならないことを示し、仮説の複雑さを低減する。
  • 完全反射同等性と近似反射同等性の下で一般化境界を形式化し、ラデマチック複雑さと被覆数とを結びつける。
  • PRISMを CAPQL をバックボーンとしたドロップインの整形コンポーネントとして評価し、4つの MuJoCo MORL タスクで検証する。
Figure 1 : Reflectional symmetry in a two-legged agent. The left panel shows a transition from state $s$ to $s^{\prime}$ under action $a$ , whereas the right panel shows the reflected transition, where states and actions are transformed by $L_{g}$ and $K_{g}$ , respectively.
Figure 1 : Reflectional symmetry in a two-legged agent. The left panel shows a transition from state $s$ to $s^{\prime}$ under action $a$ , whereas the right panel shows the reflected transition, where states and actions are transformed by $L_{g}$ and $K_{g}$ , respectively.

実験結果

リサーチクエスチョン

  • RQ1MORLの異質報酬構造を、Pareto前面を歪ませることなく学習された報酬整形モデルで効果的に整列できるか。
  • RQ2反射対称性を正則化項で強制することは、希薄報酬を伴う MORL の一般化とサンプル効率を改善するか。
  • RQ3反射同等性サブスペースへポリシーを射影することの理論的一般化への影響は何か。
  • RQ4PRISMは希薄ベースラインおよび密なオラクルベースラインに対して標準的な MORL ベンチマークで経験的にどのような性能を示すか。

主な発見

EnvironmentMetricOracleBaselinePRISM
Mo-hopper-v5HV (×10^7)1.30 ± 0.130.84 ± 0.051.58 ± 0.05
Mo-hopper-v5EUM129.04 ± 7.9697.64 ± 4.18147.43 ± 2.61
Mo-hopper-v5VO59.07 ± 3.4543.36 ± 1.6166.66 ± 1.40
Mo-walker2d-v5HV (×10^4)4.21 ± 0.113.34 ± 0.164.77 ± 0.07
Mo-walker2d-v5EUM107.58 ± 2.8682.13 ± 4.34120.43 ± 1.64
Mo-walker2d-v5VO53.22 ± 1.3939.18 ± 2.4959.35 ± 0.80
Mo-halfcheetah-v5HV (×10^4)1.70 ± 0.200.97 ± 0.002.25 ± 0.18
Mo-halfcheetah-v5EUM81.29 ± 21.85-1.46 ± 0.2789.94 ± 15.33
Mo-halfcheetah-v5VO36.84 ± 10.06-1.01 ± 0.2040.72 ± 7.02
Mo-swimmer-v5HV (×10^4)1.21 ± 0.001.09 ± 0.021.21 ± 0.00
Mo-swimmer-v5EUM9.41 ± 0.124.10 ± 0.809.44 ± 0.14
Mo-swimmer-v5VO4.22 ± 0.081.58 ± 0.404.24 ± 0.07
  • PRISMは希薄ベースラインを超えるハイパーボリュームを100%超で達成し、MuJoCoタスクで密な報酬オラクルを超える相対32%以上を示す。
  • ReSymNetは累積疎報酬と整列する各手番の密報酬を学習し、クレジット割り当てと探索を改善する。
  • SymRegは反射対称性を強制し、仮説の複雑さを減らし、最適性を損なうことなく一般化を改善する。
  • 4つの MuJoCo 環境で、PRISMは HV、EUM、VO の指標でオラクルとベースラインを上回り、 Paretoカバレッジとバランスの向上を示す。
  • アブレーション研究では、残差接続、 dense rewards、アンサンブル構成要素が性能に寄与しており、アーキテクチャを検証する。
Figure 2 : Overview of ReSymNet.
Figure 2 : Overview of ReSymNet.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。