QUICK REVIEW

[논문 리뷰] Decision Transformer: Reinforcement Learning via Sequence Modeling

Lili Chen, Kevin Lü|arXiv (Cornell University)|2021. 06. 02.

Reinforcement Learning in Robotics참고 문헌 66인용 수 464

한 줄 요약

이 논문은 PPO를 포함한 전통적 가치 백업 없이도 반환, 상태, 행동에 조건을 두고 최적의 행동을 생성하도록 하는 GPT 유사 트랜스포머를 활용한 자동회귀 시퀀스 모델링으로 강화학습을 재구성한다. Atari, OpenAI Gym, 및 Key-to-Door 벤치마크에서 오프라인 RL 성능이 경쟁력 있거나 우수하다.

ABSTRACT

We introduce a framework that abstracts Reinforcement Learning (RL) as a sequence modeling problem. This allows us to draw upon the simplicity and scalability of the Transformer architecture, and associated advances in language modeling such as GPT-x and BERT. In particular, we present Decision Transformer, an architecture that casts the problem of RL as conditional sequence modeling. Unlike prior approaches to RL that fit value functions or compute policy gradients, Decision Transformer simply outputs the optimal actions by leveraging a causally masked Transformer. By conditioning an autoregressive model on the desired return (reward), past states, and actions, our Decision Transformer model can generate future actions that achieve the desired return. Despite its simplicity, Decision Transformer matches or exceeds the performance of state-of-the-art model-free offline RL baselines on Atari, OpenAI Gym, and Key-to-Door tasks.

연구 동기 및 목표

Transformer 아키텍처를 활용하기 위해 RL을 시퀀스 모델링 문제로 재정의하자는 동기 부여.
보상에 조건화된 인과적 자동회귀 모델이 효과적인 행동을 생성할 수 있음을 보여주자.
이 접근법이 여러 벤치마크에서 최첨단 오프라인 RL 기준선과 일치하거나 능가함을 시연하자.
더 긴 컨텍스트와 회고적 보상 정보가 학습 및 크레딧 분배에 어떤 영향을 미치는지 탐구하자.

제안 방법

궤적을 회수합(R_t), 상태(s_t), 행동(a_t)의 시퀀스로 표현: (R1, s1, a1, R2, s2, a2, ..., RK, sK, aK).
과거 토큰들을 조건으로 자동회귀적으로 행동을 예측하기 위해 causal 마스킹이 있는 GPT-like 트랜스포머를 사용한다.
각 모달리티를 학습 가능한 선형 계층으로 임베딩하고 학습된 에피소드 위치 인코딩을 더한다.
간단한 감독 학습 objective로 다음 행동을 예측하는 오프라인 데이터셋에서 학습한다.
테스트 시에는 원하는 반환과 환경 시작 상태를 조건으로 두고 순차적으로 행동을 생성한다.

실험 결과

연구 질문

RQ1오프라인 RL 데이터에서 학습된 트랜스포머가 반환 및 히스토리에 조건을 두고 최적의 행동을 생성할 수 있는가?
RQ2컨텍스트 길이(K)가 Decision Transformer의 성능 및 크레딧 할당에 어떤 영향을 미치는가?
RQ3Decision Transformer가 Atari 및 OpenAI Gym 과제에서 모델-프리 오프라인 RL 베이스라인 및 준지도 학습과 비교하여 어떤 차이를 보이는가?
RQ4희소하거나 지연된 보상 환경에서 모델의 효과가 유지되며 좋은 크리틱으로 작용할 수 있는가?

주요 결과

Decision Transformer는 Atari, OpenAI Gym 및 Key-to-Door 과제에서 최첨단 모델-프리 오프라인 RL 베이스라인과 동일하거나 이를 능가한다.
Atari에서 DT는 4개 게임 중 3개에서 CQL과 경쟁하며 여러 경우에서 REM, QR-DQN, BC를 능가한다.
DT는 대부분의 OpenAI Gym 과제에서 높은 점수를 달성하고 희소 보상 환경에서도 종종 베이스라인을 상회한다.
더 긴 컨텍스트(K>1)가 정책 생성을 위한 과거 궤적의 가치를 보여주며 K=1보다 성능을 크게 향상시킨다.
DT는 Key-to-Door 과제에서 강력한 장기 크레딧 분배를 보여주고 지연 보상에서도 견고한 성능을 보인다.
DT는 보상의 분포를 모델링할 수 있으며, 목표 반환에 조건화된 생성 궤적이 원하는 반환에 맞춰 정렬되고 경우에 따라 외삽할 수 있다.
%BC 분석은 Decision Transformer가 최상의 궤적을 단순 모방하기보다는 전체 데이터셋 분포를 활용한다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.