[論文レビュー] Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
Q-Transformer は per-dimension discretization および autoregressive Transformer-based Q-learning を使用して、大規模かつ現実世界のロボット多タスクデータに対するオフライン RL をスケールさせ、従来のオフライン RL 手法と模倣学習を上回る。
In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project's website and videos can be found at https://qtransformer.github.io
研究の動機と目的
- 大規模なオフラインロボットデータセットから、人的デモと自律取得データを混在させたデータから、スケーラブルで高容量のポリシー学習を動機づけ・実現する。
- 各ディメンションごとに離散化された離散アクション・トークンを扱える Transformer ベースの Q 関数表現を開発する。
- オフラインデータに適した保守的な正則化子を導入し、分布シフトと過大評価を低減する。
- モンテカルロリターンと n ステップ TD 更新で学習効率を高め、現実タスクでの訓練を加速する。
提案手法
- 各アクション次元を個別に離散化し、Transformer を用いて Q 学習を自己回帰的シーケンスモデリングとして扱い、Q 値をトークンとして表現する。
- 時間ステップ内の各アクションビンの Q 値を計算するために次元ごとのベルマン更新を適用し、アクション次元を時間ステップとして扱う。
- 分布外アクションを最小累積報酬(彼らの設定では 0)へ正則化する、特別に設計された保守的 Q 学習目的を導入する。
- 混合品質データ上で訓練を加速するため、TD 学習をモンテカルロリターン到達点および n-ステップリターンで補強する。
- 大規模な Transformer モデルでの学習効率を向上させるため、MC リターンと TD バックアップを組み合わせたハイブリッド更新を用いる。
実験結果
リサーチクエスチョン
- RQ1Q-Transformer は、人間のデモとサブ最適なオフラインデータの混合から、効果的なポリシーを学習できるのか。
- RQ2Q-Transformer は、大規模な現実世界ロボットタスクにおいて、既存のオフライン RL および模倣学習法とどのように比較されるか。
- RQ3設計選択(保守的正則化、MC/ n-ステップリターン、次元ごとの離散化)が性能と安定性にどのように影響するか。
- RQ4Q-Transformer は非常に大規模なオフラインデータセットおよびマルチタスクの現実ロボティクス問題にスケール可能か。
主な発見
| Task category | # of tasks | Q-Transformer (Q-T) | Decision Transformer (DT) | Implicit Q-learning (IQL) | RT-1 (Imitation) |
|---|---|---|---|---|---|
| drawer pick and place | 18 | 64% | 49% | 11% | 17% |
| open and close drawer | 7 | 33% | 11% | 11% | 0% |
| move object near target | 47 | 71% | 40% | 60% | 58% |
| Average/All Tasks | 72 | 56% | 33% | 27% | 25% |
- Q-Transformer は、現実世界の言語条件付きロボット操作タスクにおいて、従来手法より高い平均成功率を達成(平均 56% 対 33% DT、27% IQL、25% RT-1)。
- 72 の現実世界タスクで、Q-Transformer は引き出し操作や近傜所配置を含むタスクカテゴリでベースラインを上回った。
- アブレーションにより、保守性とモンテカルロリターンが性能の要であり、これらを除くと結果が劣化または崩壊することが示された。
- スケーリング実験では、データセットが大幅に拡大しても(約 300k 試行)模倣学習および Decision Transformer を上回り続けた。
- 次元ごとの離散化と自己回帰 Q 学習は、オフライン設定でも Transformer を用いた TD 学習を効果的に実現し、デモと自律データを混在させた場合にも有効であることを示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。