QUICK REVIEW

[論文レビュー] Decision Transformer: Reinforcement Learning via Sequence Modeling

Lili Chen, Kevin Lü|arXiv (Cornell University)|Jun 2, 2021

Reinforcement Learning in Robotics参考文献 66被引用数 464

ひとこと要約

本論文は、報酬（リターン）、状態、行動を条件として最適な行動を生成する、GPT風のトランスフォーマーを用いた自己回帰的なシーケンスモデリングとして強化学習を再定義する。従来の価値バックアップを用いずに。Atari、OpenAI Gym、Key-to-Door のベンチマークで競争力のある、あるいは優れたオフラインRL性能を達成する。

ABSTRACT

We introduce a framework that abstracts Reinforcement Learning (RL) as a sequence modeling problem. This allows us to draw upon the simplicity and scalability of the Transformer architecture, and associated advances in language modeling such as GPT-x and BERT. In particular, we present Decision Transformer, an architecture that casts the problem of RL as conditional sequence modeling. Unlike prior approaches to RL that fit value functions or compute policy gradients, Decision Transformer simply outputs the optimal actions by leveraging a causally masked Transformer. By conditioning an autoregressive model on the desired return (reward), past states, and actions, our Decision Transformer model can generate future actions that achieve the desired return. Despite its simplicity, Decision Transformer matches or exceeds the performance of state-of-the-art model-free offline RL baselines on Atari, OpenAI Gym, and Key-to-Door tasks.

研究の動機と目的

Transformer アーキテクチャを活用するために RL をシーケンスモデリング問題として書き換える動機づけ。
リターンを条件とする因果的自己回帰モデルが効果的な行動を生成できることを示す。
このアプローチが複数のベンチマークで最先端のオフラインRLベースラインに匹敵する、またはそれを上回ることを実証する。
長い文脈と hindsight リターン情報が学習とクレジット割り当てに与える影響を探る。）

提案手法

trajectories をリターン・トゥ・ゴー、状態、行動のシーケンスとして表現する: (R1, s1, a1, R2, s2, a2, ..., RK, sK, aK).
因果マスキングを持つ GPT 的なトランスフォーマーを用いて過去のトークンから行動を自己回帰的に予測する。
各モダリティを学習可能な線形層で埋め込み、学習可能なエピソディック位置エンコーディングを追加する。
オフラインデータセットで、次の行動を予測する単純な教師あり目的で訓練する。
テスト時には、希望するリターンと環境開始状態を条件として、順次行動を生成する。

実験結果

リサーチクエスチョン

RQ1オフラインRLデータで訓練されたトランスフォーマーがリターンと履歴を条件として最適な行動を生成できるか。
RQ2コンテキスト長（K）がDecision Transformerの性能とクレジット割り当てにどのように影響するか。
RQ3Decision Transformerは Atari と OpenAI Gym のタスクで、モデルフリーのオフラインRLベースラインや模倣学習と比べてどうか。
RQ4まばらな報酬設定や遅延報酬の下でもモデルは有効性を保ち、良いクリティックとして機能できるか。

主な発見

ゲーム	DT（我々の）	CQL	QR-DQN	REM	BC
Breakout	267.5 ± 97.5	211.1	17.1	8.9	138.9 ± 61.7
Qbert	15.4 ± 11.4	104.2	0.0	0.0	17.3 ± 14.7
Pong	106.1 ± 8.1	111.9	18.0	0.5	85.2 ± 20.0
Seaquest	2.5 ± 0.4	1.7	0.4	0.7	2.1 ± 0.3

Decision Transformer は Atari、OpenAI Gym、Key-to-Door のタスクで最先端のモデルフリーオフラインRLベースラインと同等以上を達成する。
On Atari, DT は 4 ゲーム中 3 つで CQL と競合し、いくつかのケースで REM、QR-DQN、BC を上回る。
DT はほとんどの OpenAI Gym タスクで高いスコアを達成し、希少報酬設定を含むケースでもベースラインを上回ることが多い。
長い文脈（K>1）は K=1 と比べて性能を大幅に改善し、過去の軌跡が方策生成に有効であることを示す。
DT は Key-to-Door タスクで長期的なクレジット割り当ての強さを示し、遅延報酬にも頑健な性能。
DT は報酬の分布をモデリングできる；ターゲットリターンを条件にした生成軌道は望ましいリターンと整合し、一部のケースで外挿できる。
%BC 分析は Decision Transformer が最高の軌跡を単に模倣するのではなく、データセット全体の分布を利用していることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。