Skip to main content
QUICK REVIEW

[論文レビュー] Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

Yevgen Chebotar, Quan Vuong|arXiv (Cornell University)|Sep 18, 2023
Reinforcement Learning in Robotics被引用数 16
ひとこと要約

Q-Transformer は per-dimension discretization および autoregressive Transformer-based Q-learning を使用して、大規模かつ現実世界のロボット多タスクデータに対するオフライン RL をスケールさせ、従来のオフライン RL 手法と模倣学習を上回る。

ABSTRACT

In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project's website and videos can be found at https://qtransformer.github.io

研究の動機と目的

  • 大規模なオフラインロボットデータセットから、人的デモと自律取得データを混在させたデータから、スケーラブルで高容量のポリシー学習を動機づけ・実現する。
  • 各ディメンションごとに離散化された離散アクション・トークンを扱える Transformer ベースの Q 関数表現を開発する。
  • オフラインデータに適した保守的な正則化子を導入し、分布シフトと過大評価を低減する。
  • モンテカルロリターンと n ステップ TD 更新で学習効率を高め、現実タスクでの訓練を加速する。

提案手法

  • 各アクション次元を個別に離散化し、Transformer を用いて Q 学習を自己回帰的シーケンスモデリングとして扱い、Q 値をトークンとして表現する。
  • 時間ステップ内の各アクションビンの Q 値を計算するために次元ごとのベルマン更新を適用し、アクション次元を時間ステップとして扱う。
  • 分布外アクションを最小累積報酬(彼らの設定では 0)へ正則化する、特別に設計された保守的 Q 学習目的を導入する。
  • 混合品質データ上で訓練を加速するため、TD 学習をモンテカルロリターン到達点および n-ステップリターンで補強する。
  • 大規模な Transformer モデルでの学習効率を向上させるため、MC リターンと TD バックアップを組み合わせたハイブリッド更新を用いる。

実験結果

リサーチクエスチョン

  • RQ1Q-Transformer は、人間のデモとサブ最適なオフラインデータの混合から、効果的なポリシーを学習できるのか。
  • RQ2Q-Transformer は、大規模な現実世界ロボットタスクにおいて、既存のオフライン RL および模倣学習法とどのように比較されるか。
  • RQ3設計選択(保守的正則化、MC/ n-ステップリターン、次元ごとの離散化)が性能と安定性にどのように影響するか。
  • RQ4Q-Transformer は非常に大規模なオフラインデータセットおよびマルチタスクの現実ロボティクス問題にスケール可能か。

主な発見

Task category# of tasksQ-Transformer (Q-T)Decision Transformer (DT)Implicit Q-learning (IQL)RT-1 (Imitation)
drawer pick and place1864%49%11%17%
open and close drawer733%11%11%0%
move object near target4771%40%60%58%
Average/All Tasks7256%33%27%25%
  • Q-Transformer は、現実世界の言語条件付きロボット操作タスクにおいて、従来手法より高い平均成功率を達成(平均 56% 対 33% DT、27% IQL、25% RT-1)。
  • 72 の現実世界タスクで、Q-Transformer は引き出し操作や近傜所配置を含むタスクカテゴリでベースラインを上回った。
  • アブレーションにより、保守性とモンテカルロリターンが性能の要であり、これらを除くと結果が劣化または崩壊することが示された。
  • スケーリング実験では、データセットが大幅に拡大しても(約 300k 試行)模倣学習および Decision Transformer を上回り続けた。
  • 次元ごとの離散化と自己回帰 Q 学習は、オフライン設定でも Transformer を用いた TD 学習を効果的に実現し、デモと自律データを混在させた場合にも有効であることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。