[論文レビュー] A Generalized Algorithm for Multi-Objective Reinforcement Learning and Policy Adaptation
Envelope Q-learning を導入し、線形嗜好を持つ多目的強化学習 (MORL) に対して、単一のポリシーネットワークが嗜好空間全体に適応し、少数ショットの嗜好推定を実現します。
We introduce a new algorithm for multi-objective reinforcement learning (MORL) with linear preferences, with the goal of enabling few-shot adaptation to new tasks. In MORL, the aim is to learn policies over multiple competing objectives whose relative importance (preferences) is unknown to the agent. While this alleviates dependence on scalar reward design, the expected return of a policy can change significantly with varying preferences, making it challenging to learn a single model to produce optimal policies under different preference conditions. We propose a generalized version of the Bellman equation to learn a single parametric representation for optimal policies over the space of all possible preferences. After an initial learning phase, our agent can execute the optimal policy under any given preference, or automatically infer an underlying preference with very few samples. Experiments across four different domains demonstrate the effectiveness of our approach.
研究の動機と目的
- 未知の線形嗜好を持つ MORL でポリシーを学習する課題に対処する。
- 一つのポリシーネットワークで嗜好空間を網羅する一般化ベルマンフレームワークと凸包エンベロープ更新を提案する。
- envelope MOQ-learning の収束性理論を提供し、深層ネットワークによるスケーラビリティを示す。
- 新規タスクでの少数ショット適応と隠れ嗜好推定を可能にする。
- 4つのドメインで評価し、ベースラインより学習と適応が改善されることを示す。
提案手法
- 多目的 Q 値を MOQ-関数 Q(s,a,ω) として定式化し、エンベロープベースの最適性フィルタ H を用いた多目的ベルマン風演算子を定義する。
- Envelope MOQ-learning (Algorithm 1) を提案し、現在の解界面の凸包を用いたエンベロープで Q を更新して任意の線形嗜好 ω に合わせる。
- Envelope 演算子 T が収束性を満たすことを証明し、固定点が嗜好最適値関数に対応することを示す;多目的 Banach 類定理を導入する。
- Q を (state, ω) を入力として取り、a-m×|A| 個の値を出力する単一深層ネットワークで表現し、損失 L = (1−λ)L^A + λL^B を用いて同時最適化する。ホモトピーを用いて報酬適合から効用整合への重点を徐々に移行させる。
- hindsight のようなリプレイとミニバッチエンベロープ更新を用いてサンプル効率を向上させる;必要に応じてポリシー勾配と確率的探索で ω を推定する適応フェーズを導入する。
- CR (coverage ratio)、AE (adaptation error)、Avg.UT (average utility) を four domains: DST, FTN, Dialog, and Super Mario の各指標で評価する。
実験結果
リサーチクエスチョン
- RQ1単一のポリシー網は線形嗜好を持つ MOMDP の CCS 全体を効率的にカバーし、テスト時に任意の ω へ迅速に適応できるか?
- RQ2Envelope Q-learning は理論的収束保証と、スカラー化 MORL 法に比べてサンプル効率の改善を提供するか?
- RQ3提案手法は高次元の嗜好空間や大規模な状態/行動空間へ拡張可能か?
- RQ4トレーニング済みモデルは新規タスクでの適応時に限られたサンプルから隠れ嗜好を推定できるか?
主な発見
| 手法 | DST (CR) | FTN (d=6) | Dialog 2 (CR) | SuperMario 2 (AE) | Avg.UT (DST) | Avg.UT (SuperMario) |
|---|---|---|---|---|---|---|
| MOFQI | 0.639 ± 0.421 | 139.6 ± 25.98 | 0.197 ± 0.000 | 0.176 ± 0.001 | 2.17 ± 0.21 | – |
| CN+OLS | 0.751 ± 0.163 | 34.63 ± 1.396 | – | – | 2.53 ± 0.22 | – |
| Scalarized | 0.989 ± 0.024 | 0.165 ± 0.096 | 0.914 ± 0.044 | 0.016 ± 0.005 | 2.38 ± 0.22 | 162.7 ± 77.66 |
| Envelope (ours) | 0.994 ± 0.001 | 0.152 ± 0.006 | 0.987 ± 0.021 | 0.006 ± 0.001 | 2.65 ± 0.22 | 321.2 ± 146.9 |
- Envelope MORL は、4つのドメイン全てでベースラインより学習と適応の性能を最大化する。
- Dialog タスクでは、scalarized MORL に比べて平均ユーザー効用の大幅な改善を示す。
- ランダム嗜好を持つ Super Mario では、Envelope MORL が平均的な効用を約2倍に改善。
- 隠れ嗜好を少数の軌跡から推定する強い適応能力を示す。
- FTN、DST、Dialog、Super Mario の各領域で、Envelope MORL はベースラインより CR が高く AE が低い性能を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。