[논문 리뷰] PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning
PA2D-MORL은 Pareto 상승 방향 기반 분해와 진화적 다정책 MORL 프레임워크를 도입하여 연속 제어 작업에서 안정성이 향상된 고품질 Pareto 프런티어를 근사합니다. MuJoCo 기반의 여러 목표에서 최첨단 방법을 능가합니다.
Multi-objective reinforcement learning (MORL) provides an effective solution for decision-making problems involving conflicting objectives. However, achieving high-quality approximations to the Pareto policy set remains challenging, especially in complex tasks with continuous or high-dimensional state-action space. In this paper, we propose the Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning (PA2D-MORL) method, which constructs an efficient scheme for multi-objective problem decomposition and policy improvement, leading to a superior approximation of Pareto policy set. The proposed method leverages Pareto ascent direction to select the scalarization weights and computes the multi-objective policy gradient, which determines the policy optimization direction and ensures joint improvement on all objectives. Meanwhile, multiple policies are selectively optimized under an evolutionary framework to approximate the Pareto frontier from different directions. Additionally, a Pareto adaptive fine-tuning approach is applied to enhance the density and spread of the Pareto frontier approximation. Experiments on various multi-objective robot control tasks show that the proposed method clearly outperforms the current state-of-the-art algorithm in terms of both quality and stability of the outcomes.
연구 동기 및 목표
- DRL에서 목표 간 상충하는 다목적 의사결정을 촉진합니다(예: 속도 vs. 에너지).
- predefined-preferences 없이 여러 정책을 최적화하기 위한 Pareto 상승 방향 기반 분해를 제안합니다.
- Pareto 프런티어를 탐색하고 커버하기 위한 진화적 다정책 MORL 프레임워크를 개발합니다.
- Pareto 프런티어를 더욱 밀집화하고 확산하기 위한 PA-FT를 도입합니다.
- 일곱 MuJoCo 기반 다목적 작업에서 최첨단 성능과 안정성을 입증합니다.
제안 방법
- MORL을 목표 반환 벡터 J(π)를 최대화하는 문제로 형식화하고 가중치 ω를 사용해 J(π;ω)=ω^T J^π를 얻습니다.
- 집계된 정책 기울기 ∇_θJ^π(ω)=∑_i ω_i ∇_θJ_i^π_θ를 계산하여 Pareto 프런티어를 향한 최적화를 안내합니다.
- min_{α≥0, Σα_i=1} ||∑_i α_i ∇_θJ_i^π||^2를 풀어 Pareto 상승 방향을 도출하고 α*를 얻어 이를 최적화 방향으로 사용합니다(사전 선호 없음).
- 비지배적 정책 집합을 유지하고 다세대 진화적 루프로 정책을 업데이트합니다.
- 분할된Greedy Randomized(PGR) 정책 선정을 사용해 목적-공간 분할에서 다양한 정책을 업데이트합니다.
- Pareto Adaptive Fine-Tuning(PA-FT)을 적용해 대단위의 빠진 영역과 목적의 끝을 겨냥해 프런티어를 밀도화하고 확산합니다.
실험 결과
연구 질문
- RQ1Pareto 상승 방향이 모든 목표를 동시에 개선하는 손실 없이 Objective-선호 없이 방향을 제공할 수 있을까요?
- RQ2Pareto 상승 기울기를 갖는 진화적 다정책 프레임워크가 예측 모델 기반 MORL 방법보다 더 품질 좋고 안정적인 Pareto 프런티어를 도출할 수 있을까요?
- RQ3PA-FT가 다양한 환경에서 Pareto 프런티어를 충분히 밀집시키고 확산시키나요?
- RQ4제안된 분해 및 정책 선택 전략이 연속 제어 작업에서 최첨단 MORL 벤치마크와 어떻게 비교되나요?
주요 결과
| Environment | HV PA2D-MORL | HV PA2D-ablated | HV PGMORL | HV PFA | HV MOEA/D | SP PA2D-MORL | SP PA2D-ablated | SP PGMORL | SP PFA | SP MOEA/D |
|---|---|---|---|---|---|---|---|---|---|---|
| Walker2d | 5.743±0.121 | 5.320±0.186 | 4.849±0.558 | 4.329±0.553 | 4.612±0.545 | 0.014±0.006 | 0.180±0.096 | 0.021±0.018 | 0.309±0.225 | 0.710±0.285 |
| Humanoid | 51.23±2.66 | 42.93±4.14 | 44.75±5.81 | 40.55±5.02 | 46.35±7.33 | 0.133±0.031 | 0.274±0.177 | 0.255±0.121 | 0.715±0.516 | 2.871±1.342 |
| HalfCheetah | 5.787±0.020 | 5.741±0.053 | 5.782±0.018 | 5.765±0.081 | 5.739±0.075 | 0.026±0.013 | 0.106±0.035 | 0.022±0.015 | 0.548±0.209 | 0.679±0.295 |
| Hopper-2 | 22.09±0.57 | 21.30±0.68 | 19.10±2.41 | 20.61±4.31 | 20.73±1.17 | 0.503±0.107 | 0.559±0.529 | 0.559±0.529 | 4.485±2.219 | 2.346±0.672 |
| Ant | 6.814±0.167 | 6.242±0.294 | 6.283±0.277 | 6.209±0.464 | 6.233±0.477 | 0.209±0.019 | 0.351±0.047 | 0.832±0.457 | 1.021±0.554 | 1.696±0.581 |
| Swimmer | 3.187±0.056 | 2.965±0.336 | 2.566±0.595 | 2.392±0.467 | 2.323±0.531 | 0.550±0.207 | 0.603±0.241 | 0.917±0.862 | 1.976±0.582 | 2.601±1.094 |
| Hopper-3 | 3.889±0.191 | 3.759±0.277 | 3.766±0.254 | - | 3.681±0.434 | 0.021±0.013 | 0.106±0.052 | 0.032±0.011 | - | 0.642±0.215 |
- PA2D-MORL은 벤치마크 대비 모든 일곱 MuJoCo 환경에서 가장 높은 하이퍼볼륨(HV) 점수를 달성합니다.
- PA2D-MORL은 일반적으로 대부분의 환경에서 가장 조밀한 Pareto 프런티어를 달성하는 경향이 있으며(예: HalfCheetah에서 PGMORL이 경쟁적임), 예외도 존재합니다.
- PA2D-MORL은 HV 및 SP에서 실행 간의 더 우수한 안정성(더 낮은 표준편차)을 보입니다.
- PA-FT 없이 PA2D-MORL을 제거하면 프런티어 밀도가 저하되어 PA-FT의 밀도 높은 근사에 기여하는 역할이 강조됩니다.
- PA2D-MORL은 Humanoid 및 Walker2d에서 PGMORL 및 MOEA/D와 비교해 우수한 성능을 보이며, Pareto 상승 방향 분해가 예측 기반 또는 전통적 진화 방법보다 우수한 이점을 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.