QUICK REVIEW

[論文レビュー] Reinforcement Learning as One Big Sequence Modeling Problem

Michael Jänner, Qiyang Li|arXiv (Cornell University)|Jun 3, 2021

Reinforcement Learning in Robotics被引用数 17

ひとこと要約

この論文は、状態、行動、報酬の最適なシーケンスを予測するために変換器アーキテクチャを用いることで、強化学習を1つの統合的シーケンスモデリング問題として再定式化する。強化学習を自己回帰的シーケンス予測として扱うことで、別個の行動クラーニング、探索制約、不確実性推定の必要性が排除され、長時間スケール制御、模倣学習、ゴール条件付き強化学習、オフライン強化学習のあらゆる分野で優れた性能を達成する。

ABSTRACT

Reinforcement learning (RL) is typically concerned with estimating single-step policies or single-step models, leveraging the Markov property to factorize the problem in time. However, we can also view RL as a sequence problem, with the goal being to predict a sequence of actions that leads to a sequence of high rewards. Viewed in this way, it is tempting to consider whether powerful, high-capacity sequence prediction models that work well in other domains, such as natural-language processing, can also provide simple and effective solutions to the RL problem. To this end, we explore how RL can be reframed as one big sequence modeling problem, using state-of-the-art Transformer architectures to model distributions over sequences of states, actions, and rewards. Addressing RL as a sequence problem significantly simplifies a range of design decisions: we no longer require separate behavior policy constraints, as is common in prior work on offline model-free RL, and we no longer require ensembles or other epistemic uncertainty estimators, as is common in prior work on model-based RL. All of these roles are filled by the same Transformer sequence model. In our experiments, we demonstrate the flexibility of this approach across long-horizon dynamics prediction, imitation learning, goal-conditioned RL, and offline RL.

研究の動機と目的

強化学習が1つのシーケンスマッピングフレームワークに統合可能かどうかを調査すること。
オフライン強化学習における別個の行動方針制約の必要性を排除すること。
モデルベース強化学習におけるアンサンブル手法や不確実性推定器を、1つのシーケンスモデルで置き換えること。
変換器が多様な強化学習設定における長時間スケール意思決定シーケンスをどの程度適切にモデリングできるかを評価すること。
アーキテクチャの特化なしに、1つの高容量シーケンスモデルが多様な強化学習タスクを処理できることを示すこと。

提案手法

強化学習を自己回帰的シーケンスマッピングに再定式化し、モデルが状態と報酬履歴に基づいて行動のシーケンスを予測する。
状態、行動、報酬のシーケンスの同時分布をモデル化するために、変換器ベースのアーキテクチャを用いる。
行動シーケンスをターゲットとして扱い、示されたまたは収集された軌道を用いて教師あり学習でエンドツーエンドに訓練する。
自己注意機構を活用して、再帰構造に依存せずに時間ステップ間の長距離依存関係を捉える。
推論時に自己回帰的デコードを用いて、過去の状態と行動に条件づけた形で段階的に行動シーケンスを生成する。
モデルの一般化能力に依存することで、明示的な探索や行動クラーニングを回避する。

実験結果

リサーチクエスチョン

RQ1強化学習が1つのシーケンスマッピングパラダイムに効果的に統合可能か？
RQ21つの変換器モデルが、行動クラーニング、不確実性推定、探索制約といった複数のコンponentを置き換えられるか？
RQ3このアプローチは、長時間スケール、ゴール条件付き、オフライン強化学習タスクにどの程度一般化できるか？
RQ4設計と性能の観点から、自己回帰的シーケンスマッピングは従来の強化学習手法を上回るか、あるいは単純化できるか？
RQ5高容量のシーケンスモデルは、明示的な報酬形状付けや補助的目的なしに、複雑な方策を学習できるか？

主な発見

明示的な報酬形状付けやカリキュラム学習なしに、長時間スケール制御タスクで競争力のある性能を達成する。
オフライン強化学習における行動クラーニングや行動方針制約の必要性が排除され、トレーニングと推論が単純化される。
微調整や補助ネットワークなしに、未観測のゴールに対してもゴール条件付き強化学習で効果的に一般化する。
模倣学習の設定でも優れた性能を発揮し、専用の行動クラーニングベースラインと同等またはそれを上回る。
1つの統一されたアーキテクチャを用いて、多様な強化学習ベンチマークで強力な結果を達成する変換器ベースのシーケンスモデル。
アンサンブルや不確かな推定器を1つの高容量シーケンスモデルに置き換えることで、アーキテクチャの複雑さが低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。