[논문 리뷰] A Generalized Algorithm for Multi-Objective Reinforcement Learning and Policy Adaptation
다목적 강화학습에서 선형 선호를 위한 envelope Q-learning 도입으로 단일 정책 네트워크가 선호의 전체 공간에 적응하고 소수-shot 선호 추론을 수행할 수 있습니다.
We introduce a new algorithm for multi-objective reinforcement learning (MORL) with linear preferences, with the goal of enabling few-shot adaptation to new tasks. In MORL, the aim is to learn policies over multiple competing objectives whose relative importance (preferences) is unknown to the agent. While this alleviates dependence on scalar reward design, the expected return of a policy can change significantly with varying preferences, making it challenging to learn a single model to produce optimal policies under different preference conditions. We propose a generalized version of the Bellman equation to learn a single parametric representation for optimal policies over the space of all possible preferences. After an initial learning phase, our agent can execute the optimal policy under any given preference, or automatically infer an underlying preference with very few samples. Experiments across four different domains demonstrate the effectiveness of our approach.
연구 동기 및 목표
- Unknown linear preferences in MORL에서 정책을 학습하는 문제를 해결합니다.
- 하나의 정책 네트워크로 선호 공간을 커버하기 위한 일반화된 벨만 프레임워크와 볼록 엔벨로프 업데이트를 제안합니다.
- 엔벨로프 MOQ-학습의 수렴 이론을 제시하고 딥 네트워크로 확장성를 입증합니다.
- 새로운 작업에서 소수-shot 적응 및 숨겨진 선호 추론을 가능하게 합니다.
- 기본선 대비 학습 및 적응이 향상되는 네 가지 도메인에서 평가합니다.
제안 방법
- 다목적 Q-값을 MOQ-함수 Q(s,a,ω)로 형식화하고 엔벨로프 기반 최적화 필터 H를 갖는 다목적 벨만 유사 연산자를 정의합니다.
- 현재 해집합의 볼록 엔벨로프를 사용하여 주어진 선형 선호 ω와 일치시키도록 Q를 업데이트하는 엔벨로프 MOQ-학습(알고리즘 1)을 제안합니다.
- 엔벨로프 연산자 T가 수축이며 고정점이 선호되는 최적 가치 함수에 대응함을 증명합니다; 다목적 반(Banach) 유사 정리를 도입합니다.
- 상태(state), ω를 입력으로 받고 a의 m×|A| 값을 출력하는 단일 딥 네트워크로 Q를 표현하고, 손실 함수 L = (1−λ)L^A + λL^B를 사용하여 보상 fitting에서 효용에 맞추는 데 점진적으로 초점을 옮기는 호모토피를 적용합니다.
- 샘플 효율성을 높이기 위해 hindsight과 유사한 재생 및 미니배치 엔벨로프 업데이트를 사용합니다; 필요 시 정책 그래디언트와 확률적 탐색을 결합한 정책 적응 단계를 통해 ω를 추정합니다.
- 네 도메인(DST, FTN, Dialog, Super Mario)에서 CR(coverage ratio), AE(adaptation error), Avg.UT(average utility)를 평가합니다.
실험 결과
연구 질문
- RQ1단일 정책 네트워크가 선형 선호의 전체 CCS를 효율적으로 커버하고 테스트 시 어떤 ω에 대해서도 빠르게 적응할 수 있을까요?
- RQ2엔벨로프 Q-learning이 이론적 수렴 보증과 스칼라화 MORL 방법에 비해 샘플 효율을 개선합니까?
- RQ3제안된 방법이 고차원 선호 공간 및 더 큰 상태/행동 공간으로 확장될 때 어떻게 되나요?
- RQ4학습된 모델이 새로운 작업에서 제한된 샘플로 숨겨진 선호를 추론할 수 있나요?
주요 결과
| Method | DST (CR) | FTN (d=6) | Dialog 2 (CR) | SuperMario 2 (AE) | Avg.UT (DST) | Avg.UT (SuperMario) |
|---|---|---|---|---|---|---|
| MOFQI | 0.639 ± 0.421 | 139.6 ± 25.98 | 0.197 ± 0.000 | 0.176 ± 0.001 | 2.17 ± 0.21 | – |
| CN+OLS | 0.751 ± 0.163 | 34.63 ± 1.396 | – | – | 2.53 ± 0.22 | – |
| Scalarized | 0.989 ± 0.024 | 0.165 ± 0.096 | 0.914 ± 0.044 | 0.016 ± 0.005 | 2.38 ± 0.22 | 162.7 ± 77.66 |
| Envelope (ours) | 0.994 ± 0.001 | 0.152 ± 0.006 | 0.987 ± 0.021 | 0.006 ± 0.001 | 2.65 ± 0.22 | 321.2 ± 146.9 |
- 엔벨로프 MORL은 네 도메인 전체에서 기본선 대비 학습 및 적응에서 최고 성능을 달성합니다.
- Dialog 작업에서 엔벨로프 MORL은 스칼라화 MORL에 비해 평균 사용자 효용이 크게 향상됩니다.
- 랜덤 선호를 가진 Super Mario에서 엔벨로프 MORL은 평균 유틸리티가 약 2배로 향상됩니다.
- 적응 중 소수의 궤적에서 숨겨진 선호를 추론하는 강력한 적응 능력을 보여줍니다.
- FTN, DST, Dialog, Super Mario 전반에 걸쳐 엔벨로프 MORL은 기본선보다 더 높은 CR(coverage ratio)과 더 낮은 AE(adaptation error)를 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.