[論文レビュー] Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under Data Augmentation
SVEAはデータ拡張下でのオフポリシーRLにおけるQ値推定を安定化させ、DMControlおよびロボットタスクにおけるConvNetsおよび ViT アーキテクチャの安定性と一般化能力を向上させる。
While agents trained by Reinforcement Learning (RL) can solve increasingly challenging tasks directly from visual observations, generalizing learned skills to novel environments remains very challenging. Extensive use of data augmentation is a promising technique for improving generalization in RL, but it is often found to decrease sample efficiency and can even lead to divergence. In this paper, we investigate causes of instability when using data augmentation in common off-policy RL algorithms. We identify two problems, both rooted in high-variance Q-targets. Based on our findings, we propose a simple yet effective technique for stabilizing this class of algorithms under augmentation. We perform extensive empirical evaluation of image-based RL using both ConvNets and Vision Transformers (ViT) on a family of benchmarks based on DeepMind Control Suite, as well as in robotic manipulation tasks. Our method greatly improves stability and sample efficiency of ConvNets under augmentation, and achieves generalization results competitive with state-of-the-art methods for image-based RL in environments with unseen visuals. We further show that our method scales to RL with ViT-based architectures, and that data augmentation may be especially important in this setting.
研究の動機と目的
- 未見の環境へ一般化する視覚的観測から頑健な方策を学習させることを動機付ける。
- オフポリシーRLへデータ拡張を適用する際の不安定性の原因を特定する。
- 拡張に起因する分散と過正則化を最小化する、単純で効果的な安定化フレームワークを提案する。
- 多様なタスクとベンチマークに対してConvNetsおよびVision Transformersへのスケーラビリティを示す。
提案手法
- オフポリシーQ学習へデータ拡張を適用する際の不安定性の原因を分析する。
- SVEAを導入する:2つのデータストリーム(augmented および unaugmented)と混合Q学習目的を備えたデータ拡張フレームワーク。
- 拡張を現在状態のQ値推定のみに適用し、ブートストラップされたターゲットQ値には適用しない。
- 拡張データと非拡張データのQ値を同時に最適化するデータ混合目的を使用する。
- アクターを維持して(存在すれば)非拡張データから学習させ、一般化を促進するためにエンコーダを共有する。
- 追加の前方伝播回数や学習可能パラメータを必要としない実装を提供する。
実験結果
リサーチクエスチョン
- RQ1ニューラルネットワークを用いたオフポリシーQ学習でデータ拡張を使用する際の主な不安定性の原因は何か?
- RQ2計算コストを増やさずに、拡張を考慮したシンプルな訓練目的でQ値推定を安定化できるか?
- RQ3提案された安定化手法は、画像ベースのRLベンチマークにおいてConvNetsおよびVision Transformersへどれだけスケールするか?
- RQ4この手法はDMControl関連のベンチマークやロボット操作タスクにおける未見の視覚情報への一般化を改善するか?
主な発見
- SVEAはDMControlタスクにおける強い拡張を用いたQ学習の安定性とサンプル効率を大幅に向上させる。
- SVEAは最先端の画像ベースRL法と比較して、漸近性能および一般化において競争力があるか優れている。
- 拡張を現在状態のQ値推定に限定することと、デュアルストリームの混合目的という2つの要素が、分散と過剰正則化を削減する。
- SVEAはViTベースのアーキテクチャへスケールし、拡張は過剰適合を避けるのに特に有益である。
- より多くの拡張(KやMを増やす)を用いたDrQ系ベースラインは計算コストが高くなる一方、SVEAはコストを抑えて性能と同等以上を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。