Skip to main content
QUICK REVIEW

[논문 리뷰] Stabilizing Transformers for Reinforcement Learning

Emilio Parisotto, Hao Song|arXiv (Cornell University)|2019. 10. 13.
Reinforcement Learning in Robotics참고 문헌 39인용 수 131
한 줄 요약

논문은 게이트된 재정렬-layer 트랜스포머 아키텍처인 Gated Transformer-XL (GTrXL)을 제시합니다. 이는 학습을 안정화하고 메모리 기반 강화학습 성능을 향상시키며, DMLab-30 및 확장 가능한 메모리 작업에서 LSTM 및 외부 메모리보다 우수합니다.

ABSTRACT

Owing to their ability to both effectively integrate information over long time horizons and scale to massive amounts of data, self-attention architectures have recently shown breakthrough success in natural language processing (NLP), achieving state-of-the-art results in domains such as language modeling and machine translation. Harnessing the transformer's ability to process long time horizons of information could provide a similar performance boost in partially observable reinforcement learning (RL) domains, but the large-scale transformers used in NLP have yet to be successfully applied to the RL setting. In this work we demonstrate that the standard transformer architecture is difficult to optimize, which was previously observed in the supervised learning setting but becomes especially pronounced with RL objectives. We propose architectural modifications that substantially improve the stability and learning speed of the original Transformer and XL variant. The proposed architecture, the Gated Transformer-XL (GTrXL), surpasses LSTMs on challenging memory environments and achieves state-of-the-art results on the multi-task DMLab-30 benchmark suite, exceeding the performance of an external memory architecture. We show that the GTrXL, trained using the same losses, has stability and performance that consistently matches or exceeds a competitive LSTM baseline, including on more reactive tasks where memory is less critical. GTrXL offers an easy-to-train, simple-to-implement but substantially more expressive architectural alternative to the standard multi-layer LSTM ubiquitously used for RL agents in partially observable environments.

연구 동기 및 목표

  • 장기-관찰 가능한 RL 문제에서 트랜스포머의 사용을 동기 부여한다.
  • RL 설정에서 표준 트랜스포머의 학습 불안정성을 식별한다.
  • 학습 안정화를 위한 아키텍처 수정(동일성 매핑 재배열 및 게이팅)을 제안한다.
  • GTrXL이 메모리 기반 벤치마크에서 LSTM 및 외부 메모리를 능가함을 입증한다.
  • 시드와 하이퍼파라미터에 대한 강건성을 보여주면서도 경쟁력 있는 성능을 유지한다.]
  • method:[
  • RL 메모리에 대해 상대 위치 인코딩을 갖춘 Transformer-XL 아키텍처를 적용한다.
  • TrXL-I로 서브모듈의 입력 스트림에 LayerNorm만 배치하는 동일성 맵 재배열을 적용한다.
  • MHA 및 MLP 서브모듈의 잔차 연결을 대체하기 위해 게이팅 메커니즘을 도입한다( GTrXL).
  • 가장 강력한 변형으로 GRU-타입 게이팅(GTrXL GRU)과 여러 비광화(입력, 출력, 하이웨이, SigTanh) 변형을 탐색한다.
  • Markov 정책 학습을 부트스트랩하기 위해 게이팅 바이어스를 거의 항등 매핑으로 유도하도록 초기화한다.
  • 도메인 간 학습 안정성과 성능을 평가하기 위해 V-MPO(온폴리시 MPO 변형)로 학습한다.

제안 방법

  • RL 메모리에 대해 상대 위치 인코딩을 갖춘 Transformer-XL 아키텍처를 적용한다.
  • TrXL-I로 서브모듈의 입력 스트림에 LayerNorm만 배치하는 동일성 맵 재배열을 적용한다.
  • MHA 및 MLP 서브모듈의 잔차 연결을 대체하기 위해 게이팅 메커니즘을 도입한다( GTrXL).
  • 가장 강력한 변형으로 GRU-타입 게이팅(GTrXL GRU)과 여러 비광화(입력, 출력, 하이웨이, SigTanh) 변형을 탐색한다.
  • Markov 정책 학습을 부트스트랩하기 위해 게이팅 바이어스를 거의 항등 매핑으로 유도하도록 초기화한다.
  • 도메인 간 학습 안정성과 성능을 평가하기 위해 V-MPO(온폴리시 MPO 변형)로 학습한다.

실험 결과

연구 질문

  • RQ1트랜스포머가 RL 에이전트의 메모리 아키텍처로서 충분히 안정화될 수 있는가?
  • RQ2트랜스포머의 RL 학습 안정성을 개선할 수 있는 레이어 정규화 순서 및 게이팅의 아키텍처 변화는 무엇인가?
  • RQ3메모리 요구가 큰 RL 벤치마크에서 GTrXL은 LSTM 및 외부 메모리 아키텍처와 비교하여 어떻게 성능을 발휘하는가?
  • RQ4GTrXL의 하이퍼파라미터, 시드 및 다양한 메모리 수평에 대해 얼마나 강건한가?
  • RQ5메모리 수평이 커져도 GTrXL이 확장되며 복잡한 작업에서 전통적 아키텍처를 능가하는가?

주요 결과

모델평균 인간 표준 점수평균 인간 표준 점수, 100-상한
LSTM99.3 ± 1.084.0 ± 0.4
TrXL5.0 ± 0.25.0 ± 0.2
TrXL-I107.0 ± 1.287.4 ± 0.3
MERLIN@100B115.289.4
GTrXL (GRU)117.6 ± 0.389.1 ± 0.2
GTrXL (Input)51.2 ± 13.247.6 ± 12.1
GTrXL (Output)112.8 ± 0.887.8 ± 0.3
GTrXL (Highway)90.9 ± 12.975.2 ± 10.4
GTrXL (SigTanh)101.0 ± 1.383.9 ± 0.7
  • GRU 게이팅이 적용된 GTrXL은 메모리 기반 환경에서 경쟁력 있는 3층 LSTM 대비 DMLab-30에서 현저히 우수하게 성능을 보인다.
  • GTrXL (GRU)는 멀티태스크 DMLab-30 벤치마크에서 최첨단 성능을 달성하며 최종 성능에서 외부 메모리 MERLIN을 능가한다.
  • GTrXL은 넘겨받은 메모리 수평에서 LSTM보다 더 나은 확장성을 보이며 Numpad 작업에서 메모리 요구가 증가해도 우수한 성능을 유지한다.
  • 게이팅이 적용된 GTrXL 변형은 안정성 및 학습 속도에서 다른 게이팅 옵션보다 우수하며, 모든 작업에서 GRU 게이팅이 가장 강력한 결과를 제공한다.
  • GTrXL은 메모리가 덜 중요한 반응형 작업에서도 경쟁력 있거나 우수한 성능을 보이며 LSTM의 메모리 대체로 넓은 적용 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.