QUICK REVIEW

[論文レビュー] Towards Characterizing Divergence in Deep Q-Learning

Joshua Achiam, Ethan Knight|arXiv (Cornell University)|Mar 21, 2019

Domain Adaptation and Few-Shot Learning参考文献 24被引用数 61

ひとこと要約

この論文は、アップデートのテイラー展開による Deep Q-Learning の発散を分析し、機能近似、データ分布、ブートストラッピングの役割を特定し、一般的なコツを使わずに学習を安定化させる PreQN を提案する。さらに PreQN を自然勾配法と結びつけ、MuJoCo のベンチマークで競合する性能を示す。

ABSTRACT

Deep Q-Learning (DQL), a family of temporal difference algorithms for control, employs three techniques collectively known as the `deadly triad' in reinforcement learning: bootstrapping, off-policy learning, and function approximation. Prior work has demonstrated that together these can lead to divergence in Q-learning algorithms, but the conditions under which divergence occurs are not well-understood. In this note, we give a simple analysis based on a linear approximation to the Q-value updates, which we believe provides insight into divergence under the deadly triad. The central point in our analysis is to consider when the leading order approximation to the deep-Q update is or is not a contraction in the sup norm. Based on this analysis, we develop an algorithm which permits stable deep Q-learning for continuous control without any of the tricks conventionally used (such as target networks, adaptive gradient optimizers, or using multiple Q functions). We demonstrate that our algorithm performs above or near state-of-the-art on standard MuJoCo benchmarks from the OpenAI Gym.

研究の動機と目的

デッドリートライアド（三つの要素：機能近似、オフポリシーのデータ、ブートストラッピング）による深層Q学習の発散を動機づけ、特徴づける。
sup norm における収縮特性を理解するためのリーディングオーダーの更新演算子を導出する。
安定性と一般化における神経接線カーネル（NTK）とデータ分布の役割を特定する。
ターゲットネットワークや複数の Q 関数を用いずに DQL を安定化させる PreQN（Preconditioned Q-Networks）を提案・評価する。
PreQN を自然勾配法と結びつけ、特定の条件下での安定性を説明する。

提案手法

DQL のアップデートをテイラー展開して、神経接線カーネル K_theta とリプレイデータ分布 D_rho を含むリーディングオーダー演算子を得る。
機能近似、データ分布、ブートストラッピングの寄与を分離して近似アップデート U を導出し、収縮性を研究する。
一連のアップデート演算子 U1、U2、U3 と sup ノルムにおける収縮基準を通じて直感を確立する。
PreQN を導入、ミニバッチ K_theta の逆行列を用いた TD-エラーの前処理をミニバッチベースで行い、アップデートと TD-エラーの整列を確保する（コサイン項）。
同一のサンプル推定（Φ_theta を用いた行列形式）の下で PreQN と自然勾配 Q 学習の等価性を示す。
DDPG のスタイルで PreQN の擬似コードを提供し、ターゲットネットワークの削除について論じる。

実験結果

リサーチクエスチョン

RQ1リーダーオーダーの DQL アップデートが sup ノルムで収縮となる条件は何か、デッドリートライアドの成分は安定性にどう影響するか。
RQ2神経接線カーネル（NTK）は安定性と一般化にどのように影響するか、アーキテクチャの選択は発散を緩和できるか。
RQ3ターゲットネットワークや複数の Q 関数を使わずに DQL を安定化させる前処理済みアップデート（PreQN）は実現可能か、自然勾配法とどう関連するか。
RQ4既存手法でデータ分布や TD-エラーの改変は、NTK 主導の一般化の問題より発散に対処しているのか。
RQ5PreQN は TD3 や SAC と比較して連続制御ベンチマークでどう機能するか、sin などの活性化関数が安定性と性能にどう影響するか。

主な発見

リーディングオーダーの DQL アップデートは sup ノルムによる収縮の観点から分析でき、K_theta、D_rho、T^*Q_theta の役割を浮き彫りにする。
NTK と一般化の程度（対角成分以外のエレメント）が安定性に影響を与え、過度の一般化は安定性を損なう可能性がある。
PreQN は K_theta のミニバッチ最小二乗問題を解くことで TD-エラーを前処理し、TD-エラーと整列するようラインサーチで Q を更新するため、非拡張的な挙動を達成する。
PreQN は同一のサンプルベースの推定の下で自然勾配 Q 学習と等価であることがあり、特定の設定でターゲットネットワークなしの安定性を説明する。
実証的な NTK 分析は sin 活性化が対角優先の NTK 構造を生みやすく、PreQN-sin が複数の MuJoCo タスクでベースラインを上回るか同等であることを示唆している。
PreQN はターゲットネットワークなしで標準的な MuJoCo ベンチマークに対して安定的かつ競争力のある性能を示す一方、relu ネットワークでは発散が生じることがあり、アーキテクチャとハイパーパラメータの考慮が重要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。