QUICK REVIEW

[論文レビュー] Multi-Objective Deep Reinforcement Learning

Hossam Mossalam, Yannis Assael|arXiv (Cornell University)|Oct 9, 2016

Reinforcement Learning in Robotics参考文献 32被引用数 92

ひとこと要約

本稿では、O LSの外ループアプローチを活用することで、高次元の多目的意思決定問題を解くための深層強化学習を可能にする、新しいフレームワークであるDeep Optimistic Linear Support Learning (DOL)を提案する。特に、部分的再利用（DOL-PR）を通じて、ニューラルネットワークのパラメータを連続する単目的問題間で再利用することで、DOL や完全再利用よりも高い精度と安定性を達成し、深層強化学習を多目的問題に成功して応用した初の例を示している。

ABSTRACT

We propose Deep Optimistic Linear Support Learning (DOL) to solve high-dimensional multi-objective decision problems where the relative importances of the objectives are not known a priori. Using features from the high-dimensional inputs, DOL computes the convex coverage set containing all potential optimal solutions of the convex combinations of the objectives. To our knowledge, this is the first time that deep reinforcement learning has succeeded in learning multi-objective policies. In addition, we provide a testbed with two experiments to be used as a benchmark for deep multi-objective reinforcement learning.

研究の動機と目的

目的の重みが事前に不明な高次元の多目的強化学習問題を解く課題に対処すること。
楽観的線形サポート（OLS）フレームワークと互換性を持つように、深層Q学習を多目的マークフ・決定過程（MOMDPs）に拡張すること。
スカラライズド単目的問題の反復処理において、ニューラルネットワークのパラメータを再利用することで、多目的学習のサンプル効率を向上させること。
2つの実験的環境を備えた、深層多目的強化学習のベンチマークテストベッドを確立すること。
完全再利用と部分的再利用の影響が学習性能および収束安定性に与える実証的評価を行うこと。

提案手法

本手法はOLSフレームワークを外ループとして用い、深層Qネットワーク（DQNs）を用いて一連のスカラライズド単目的問題を解く。
各反復処理では、目的の重み付き和を適用して多目的問題を単目的問題に変換し、経験再生とターゲットネットワークを用いたDQNで解く。
提案されたDOLアルゴリズムは、DQNがスカラー値ではなく値ベクトルを出力するように訓練することでOLS適合性を確保し、被覆集合の近似を可能にする。
DOL-FRは前回の反復からのすべてのネットワークパラメータを再利用して学習を加速するが、DOL-PRは最終層を除くすべてのパラメータを再利用し、状態表現を保持しながら値ヘッドを再訓練する。
反復処理を通じて値ベクトルが次第に類似するようになることを利用し、パラメータ再利用が収束を高速化する有効性を活かしている。
ベンチマーク用に、意思決定問題の「生データ」と「画像ベース」の2つの環境を導入した。

実験結果

リサーチクエスチョン

RQ1目的の重みが未知の高次元の多目的意思決定問題に対して、深層強化学習を効果的に適用できるか？
RQ2反復処理間でのパラメータ再利用が、深層多目的RLの性能および安定性に与える影響は何か？
RQ3ニューラルネットワーク重みの部分的再利用（DOL-PR）は、完全再利用（DOL-FR）や再利用なし（DOL）よりも効果的か？
RQ4訓練エピソード数が、深層多目的RLにおける凸被覆集合近似の精度に与える影響は何か？
RQ5OLSフレームワークは深層Q学習と効果的に組み合わせられ、MOMDPsにスケーラブルな解決策を提供できるか？

主な発見

DOL-PRは、生データおよび画像ベースの両環境において、凸被覆集合（CSS）の近似において最高のパフォーマンスと安定性を達成した。
DOL-PRの最大CSS誤差は、DOLおよびDOL-FRよりも顕著に低く、特に画像バージョンでは最も安定した収束を示した。
エピソード数が少ない場合（例：4000未満）、DOL-PRは十分な精度に達しないことが示され、十分な訓練が必要であることを示唆した。
10,000エピソードでは、DOL-PRに過学習の兆候が見られ、パフォーマンスが低下したため、早期停止が有益である可能性がある。
部分的パラメータ再利用（DOL-PR）は、完全再利用（DOL-FR）を上回り、表現ヘッドを保持しながら値ヘッドを再訓練することで、過去の最適方策からの劣化を防げることを示した。
本フレームワークは高次元の価値関数を効果的に学習し、正確な被覆集合を生成でき、深層強化学習を多目的問題に成功して応用した初の例である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。