Skip to main content
QUICK REVIEW

[論文レビュー] PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning

Tianmeng Hu, Biao Luo|arXiv (Cornell University)|Mar 20, 2026
Advanced Multi-Objective Optimization Algorithms被引用数 0
ひとこと要約

PA2D-MORLはPareto ascent direction-based decompositionと進化的な多方策MORLフレームワークを提案し、連続制御タスクにおける安定性を向上させつつ高品質なパレート前線を近似します。MuJoCoベースのいくつかの目的関数で最先端メソッドを上回ります。

ABSTRACT

Multi-objective reinforcement learning (MORL) provides an effective solution for decision-making problems involving conflicting objectives. However, achieving high-quality approximations to the Pareto policy set remains challenging, especially in complex tasks with continuous or high-dimensional state-action space. In this paper, we propose the Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning (PA2D-MORL) method, which constructs an efficient scheme for multi-objective problem decomposition and policy improvement, leading to a superior approximation of Pareto policy set. The proposed method leverages Pareto ascent direction to select the scalarization weights and computes the multi-objective policy gradient, which determines the policy optimization direction and ensures joint improvement on all objectives. Meanwhile, multiple policies are selectively optimized under an evolutionary framework to approximate the Pareto frontier from different directions. Additionally, a Pareto adaptive fine-tuning approach is applied to enhance the density and spread of the Pareto frontier approximation. Experiments on various multi-objective robot control tasks show that the proposed method clearly outperforms the current state-of-the-art algorithm in terms of both quality and stability of the outcomes.

研究の動機と目的

  • 目的が衝突するDRLにおける多目的意思決定の動機づけ(例:速度 vs. エネルギー)。
  • 事前に定義された好みに依存せず、Pareto ascent direction-based decompositionを提案して複数の政策を最適化する。
  • Pareto frontierを探索・塗りつぶす進化的・多方策MORLフレームワークを開発。
  • PA-FTを導入して前線を濃密化・拡散させる。
  • 7つのMuJoCoベースの多目的タスクで最先端の性能と安定性を実証する。

提案手法

  • MORLを評価値ベクトルJ(π)の最大化として定式化し、重みωを用いてJ(π;ω)=ω^T J^πを得る。
  • 集約されたpolicy勾配∇_θJ^π(ω)=∑_i ω_i ∇_θJ_i^π_θを計算し、パレート frontierへ最適化を誘導する。
  • Pareto ascent directionを、min_{α≥0, Σα_i=1} ||∑_i α_i ∇_θJ_i^π||^2を解いてα*を得て、これを最適化方向として用いる(事前の目的嗜好はなし)。
  • 非支配ポリシー集合を維持し、進化的な多世代ループでポリシーを更新する。
  • Partitioned Greedy Randomized (PGR) ポリシー選択を用いて目的空間の分割ごとに多様なポリシーを更新する。
  • Pareto Adaptive Fine-Tuning (PA-FT)を適用して、見落とされた大規模領域と目的の端部を狙うことでフロンティアを濃密化・拡散する。

実験結果

リサーチクエスチョン

  • RQ1Pareto ascent directionは、全ての目的を同時に向上させる損失なし・嗜好なしの方向を提供できるのか。
  • RQ2Pareto ascent勾配を用いた進化的・多方策フレームワークは、予測モデルベースの MORL 法より高品質で安定した Pareto frontierを生み出せるのか。
  • RQ3PA-FTはさまざまな環境でPareto frontierを適切に濃密化・分布させるのか。
  • RQ4提案された分解とポリシー選択戦略は、連続制御タスクにおける最先端の MORL ベースラインと比較してどうか。

主な発見

EnvironmentHV PA2D-MORLHV PA2D-ablatedHV PGMORLHV PFAHV MOEA/DSP PA2D-MORLSP PA2D-ablatedSP PGMORLSP PFASP MOEA/D
Walker2d5.743±0.1215.320±0.1864.849±0.5584.329±0.5534.612±0.5450.014±0.0060.180±0.0960.021±0.0180.309±0.2250.710±0.285
Humanoid51.23±2.6642.93±4.1444.75±5.8140.55±5.0246.35±7.330.133±0.0310.274±0.1770.255±0.1210.715±0.5162.871±1.342
HalfCheetah5.787±0.0205.741±0.0535.782±0.0185.765±0.0815.739±0.0750.026±0.0130.106±0.0350.022±0.0150.548±0.2090.679±0.295
Hopper-222.09±0.5721.30±0.6819.10±2.4120.61±4.3120.73±1.170.503±0.1070.>868±0.3890.559±0.5294.485±2.2192.346±0.672
Ant6.814±0.1676.242±0.2946.283±0.2776.209±0.4646.233±0.4770.209±0.0190.351±0.0470.832±0.4571.021±0.5541.696±0.581
Swimmer3.187±0.0562.965±0.3362.566±0.5952.392±0.4672.323±0.5310.550±0.2070.603±0.2410.917±0.8621.976±0.5822.601±1.094
Hopper-33.889±0.1913.759±0.2773.766±0.254-3.681±0.4340.021±0.0130.106±0.0520.032±0.011-0.642±0.215
  • PA2D-MORLは、ベースラインと比較して7つのMuJoCo環境全体で最良のハイパーボリューム(HV)スコアを達成。
  • PA2D-MORLは一般に多くの環境で最も濃密なPareto frontierを達成する(SPが最小)、ただしHalfCheetahなど一部はPGMORLが競合する例もある。
  • PA2D-MORLは他の手法と比較してHVおよびSPでの実行間の安定性(標準偏差が小さい)に優れている。
  • PA2D-MORLをPA-FTなしで評価すると frontier densityが低下し、PA-FTが密なパレート近似に寄与していることを示す。
  • PA2D-MORLは多くの設定でPGMORLやMOEA/Dを上回り、特にHumanoidとWalker2dでその利点が顕著であり、予測ベースや従来の進化的方法よりPareto ascent directional decompositionの利点を示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。