[論文レビュー] Offline Reinforcement Learning as One Big Sequence Modeling Problem
本研究は軌跡を統一されたシーケンスとして扱い、ビームサーチを用いたトランスフォーマー(Trajectory Transformer)を用いて模倣学習、ゴール条件付きRL、およびオフラインRLを実行し、多くの従来のRL要素を用いずに競争力の、または最先端の結果を達成する。
Reinforcement learning (RL) is typically concerned with estimating stationary policies or single-step models, leveraging the Markov property to factorize problems in time. However, we can also view RL as a generic sequence modeling problem, with the goal being to produce a sequence of actions that leads to a sequence of high rewards. Viewed in this way, it is tempting to consider whether high-capacity sequence prediction models that work well in other domains, such as natural-language processing, can also provide effective solutions to the RL problem. To this end, we explore how RL can be tackled with the tools of sequence modeling, using a Transformer architecture to model distributions over trajectories and repurposing beam search as a planning algorithm. Framing RL as sequence modeling problem simplifies a range of design decisions, allowing us to dispense with many of the components common in offline RL algorithms. We demonstrate the flexibility of this approach across long-horizon dynamics prediction, imitation learning, goal-conditioned RL, and offline RL. Further, we show that this approach can be combined with existing model-free algorithms to yield a state-of-the-art planner in sparse-reward, long-horizon tasks.
研究の動機と目的
- 設計を簡素化し高容量のシーケンスモデルを活用するために、RLを統一されたシーケンスモデリング問題として再定義する。
- Transformerアーキテクチャを用いて長期的な軌跡予測の精度を実証する。
- Trajectory Transformer上のビームサーチ計画が競争力のあるオフラインRLの結果をもたらし、模倣学習およびゴール条件付きRLを可能にすることを示す。
- デコードの変異がモデルベースの計画とゴール到達能力を生み出す方法を探る。
- このシーケンスモデリング手法が専門的なオフラインRL手法に匹敵するか、あるいはそれを上回るかを評価する。
提案手法
- 軌跡を離散化した状態・行動・報酬の自己回帰的にモデル化されたシーケンスとして表現する。
- 履歴に条件付けた P(theta)(s_t, a_t, r_t) をモデル化するために、Transformerデコーダ(Trajectory Transformer)を訓練する。
- 連続次元を一様離散化または分位点離散化によって離散トークン列に形成する。
- ビームサーチを計画アルゴリズムとして用い、シーケンス尤度または報酬を最大化(または近似)することにより高報酬の軌跡を生成する。
- 報酬に報酬残り(reward-to-go)を加えてオフライン計画を誘導し、希少報酬タスクには検索ヒューリスティックとしてQ関数を組み込むことも検討する。
- 条件付き入力とシーケンス長に最小限の変更を加えるだけで、模倣学習、ゴール条件付きRL、およびオフラインRLのいずれにも同じデコード手順を適用する。
実験結果
リサーチクエスチョン
- RQ1高容量のシーケンスモデル(Transformer)は、伝統的なRLの分解を用いずに長期的な軌跡を正確に予測できるか?
- RQ2軌跡ベースのモデルにおけるビームサーチ計画は、専門的なオフラインRL手法と競合できるか?
- RQ3同じモデルは、単純なデコード戦略を通じて模倣学習、ゴール条件付きRL、オフラインRLの全てをサポートできるか?
- RQ4報酬残りやQ-functionヒューリスティックを取り入れることで、希少報酬タスクの計画は改善されるか?
主な発見
| Dataset | Environment | BC | MBOP | BRAC | CQL | DT | TT (uniform) | TT (quantile) |
|---|---|---|---|---|---|---|---|---|
| Med-Expert | HalfCheetah | 59.9 | 105.9 | 41.9 | 91.6 | 86.8 | 40.8 ± 2.3 | 95.0 ± 0.2 |
| Med-Expert | Hopper | 79.6 | 55.1 | 0.9 | 105.4 | 107.6 | 106.0 ± 0.28 | 110.0 ± 2.7 |
| Med-Expert | Walker2d | 36.6 | 70.2 | 81.6 | 108.8 | 108.1 | 91.0 ± 2.8 | 101.9 ± 6.8 |
| Medium | HalfCheetah | 43.1 | 44.6 | 46.3 | 44.0 | 42.6 | 44.0 ± 0.31 | 46.9 ± 0.4 |
| Medium | Hopper | 63.9 | 48.8 | 31.3 | 58.5 | 67.6 | 67.4 ± 2.9 | 61.1 ± 3.6 |
| Medium | Walker2d | 77.3 | 41.0 | 81.1 | 72.5 | 74.0 | 81.3 ± 2.1 | 79.0 ± 2.8 |
| Med-Replay | HalfCheetah | 4.3 | 42.3 | 47.7 | 45.5 | 36.6 | 44.1 ± 0.9 | 41.9 ± 2.5 |
| Med-Replay | Hopper | 27.6 | 12.4 | 0.6 | 95.0 | 82.7 | 99.4 ± 3.2 | 91.5 ± 3.6 |
| Med-Replay | Walker2d | 36.9 | 9.7 | 0.9 | 77.2 | 66.6 | 79.4 ± 3.3 | 82.6 ± 6.9 |
| Average | - | 47.7 | 47.8 | 36.9 | 77.6 | 74.7 | 72.6 | 78.9 |
- Trajectory Transformerは、標準的な単一ステップのダイナミクスモデルよりはるかに長期の予測精度を提供し、100ステップにわたって妥当性を維持する。
- オフラインRLのベンチマークでは、TT(分位離散化)は移動タスク全般で最先端手法に匹敵するかそれを上回り、いくつかのベースラインを上回る。
- TT計画とQ関数を検索ヒューリスティックとして組み合わせると、希少報酬タスク(AntMaze)でIQLおよびリターン条件付けアプローチより優れた性能を示す。
- 標準のビームサーチを用いたTTによる模倣学習とゴール到達は高い性能を達成し、デコードに基づく計画アプローチの多様性を示している。
- デコードの変種(例:目標状態を先頭に追加することでのゴール条件付け)は、報酬やリワードの形づけなしにゴール到達を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。