QUICK REVIEW

[論文レビュー] Modular Multi-Objective Deep Reinforcement Learning with Decision Values

Tomasz Tajmajer|arXiv (Cornell University)|Apr 21, 2017

Reinforcement Learning in Robotics参考文献 19被引用数 1

ひとこと要約

この論文は、個々の目的用に別々のDQNを使用し、意思決定値を導入してそれらの出力を動的にスカラー化する、意思決定値を備えたモジュラー多目的深層Qネットワーク（MODQN-DV）を提案する。これにより、トレーニング後における優先順位の再調整と動作再構成が可能となり、目的の優先順位が変化する状況でも性能が向上し、再トレーニングなしで実行時における動作チューニングが可能となる。7つの9つの優先順位シフトシナリオにおいて、ベースラインDQN手法を上回り、トレーニング後における優先順位の再調整が可能である。

ABSTRACT

In this work we present a method for using Deep Q-Networks (DQNs) in multi-objective environments. Deep Q-Networks provide remarkable performance in single objective problems learning from high-level visual state representations. However, in many scenarios (e.g in robotics, games), the agent needs to pursue multiple objectives simultaneously. We propose an architecture in which separate DQNs are used to control the agent's behaviour with respect to particular objectives. In this architecture we introduce decision values to improve the scalarization of multiple DQNs into a single action. Our architecture enables the decomposition of the agent's behaviour into controllable and replaceable sub-behaviours learned by distinct modules. Moreover, it allows to change the priorities of particular objectives post-learning, while preserving the overall performance of the agent. To evaluate our solution we used a game-like simulator in which an agent - provided with high-level visual input - pursues multiple objectives in a 2D world.

研究の動機と目的

衝突回避、清掃、充電といった対立する目標をバランスさせる必要がある多目的環境において、単一目的DQNの限界を克服すること。
再トレーニングを伴わずに、トレーニング後における目的の優先順位の再構成と特定の行動の無効化を可能にし、ロボット工学やゲームAIにおける実用的導入を支援すること。
複雑なエージェント行動を、独立してトレーニング可能なモジュラーDQNコンponentsに分解し、制御性と保守性を向上させること。
意思決定値を導入し、リアルタイムでの関連性に基づいて複数のDQN出力を強固にスカラー化するメカニズムを提供することで、優先順位の変化に適応する柔軟性を高めること。
アタリに類似したが多目的評価に特化した「cleaner」という新しいベンチマークを確立すること。

提案手法

各目的（例：衝突回避、床の清掃、充電）に別々の深層Qネットワーク（DQN）を用いるアーキテクチャを採用し、モジュラーなトレーニングを可能にする。
意思決定値は、状態に依存する学習可能な重みであり、各DQNのQ値出力をスカラー化する前にスケーリングする。これは、各目的の現在の関連性を反映する。
最終的な行動選択は、意思決定値が重みとなるQ値の重み付き和に基づいて行われ、環境の文脈に応じた動的優先順位付けを可能にする。
意思決定値は、複数の目的全体のパフォーマンスを最適化する共通の損失関数を用いてエンドツーエンドで学習され、トレーニング後に新しい優先順位設定に適応可能となる。
実行時における目的の優先順位の変更が可能であり、新しい目的を追加しても再トレーニングを必要とせず、新しいDQNを初期化し意思決定値メカニズムを介して統合可能である。
フレームワークは、視覚的状態入力を備えた2次元グリッドワールドシミュレータで評価され、複数の目的を有する清掃ロボットのシナリオを模擬した。

実験結果

リサーチクエスチョン

RQ1意思決定値を備えたモジュラーDQNアーキテクチャは、トレーニング後における優先順位の再構成を可能にしつつ、効果的な多目的強化学習を実現できるか？
RQ2トレーニング時に使用された優先順位とは異なる優先順位が与えられた場合、意思決定値の使用がパフォーマンスにどのように寄与するか？
RQ3意思決定値によって、特定の行動を動的に無効化または有効化しても、パフォーマンスの低下が生じる程度はどの程度か？
RQ4トレーニング済みエージェントに新しい目的を追加する際、再トレーニングなしに意思決定値メカニズムを用いてその影響を調整可能か？
RQ5MODQN-DVは、複数の目的における優先順位のシフトに対して、標準DQNおよびMODQNと比較してどの程度のロバスト性を示すか？

主な発見

トレーニング後における優先順位設定が変更された9つのテストケースのうち7つで、意思決定値を備えたMODQN-DVは、意思決定値なしのMODQNよりも全体的なパフォーマンスを維持または向上させた。
最高優先順位の目的が変更された場合、意思決定値を用いることでその目的のパフォーマンスが一貫して向上し、効果的な動的優先順位付けが実現した。
意思決定値なしのベースラインMODQNは、0,1,0の優先順位設定において1,1,1設定と比較して286.74%のパフォーマンス低下を示し、標準スカラー化の不安定性を浮き彫りにした。
意思決定値は、エージェントが特定の目的に関連する状態に近づくと動的に上昇する—例として、壁に近づくと衝突回避の値が上昇する—これにより文脈に応じた関連性推定が実現した。
優先順位がシフトした状況でも、MODQN-DVはパフォーマンスを維持または向上させることができ、0.5, 0.3, 0.2の設定ではベースライン比で全体的なパフォーマンスが44.55%向上した。
提案された「cleaner」ベンチマークは、視覚的多目的環境を提供し、MORLアルゴリズムの評価に適したものであり、既存のベンチマークにおける空白を埋める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。