QUICK REVIEW

[논문 리뷰] Were RNNs All We Needed?

Leo Feng, Frederick Tung|arXiv (Cornell University)|2024. 10. 02.

Nursing Education, Practice, and Leadership인용 수 5

한 줄 요약

이 논문은 LSTMs/GRUs를 재검토하여 은닉 상태 의존성을 제거하고 병렬 학습을 가능하게 하며, minLSTM과 minGRU를 도입하고, 다양한 작업에서 최근 시퀀스 모델과 동일하거나 초과하는 성능을 보여주며 상당한 학습 속도 증가를 달성한다.

ABSTRACT

The introduction of Transformers in 2017 reshaped the landscape of deep learning. Originally proposed for sequence modelling, Transformers have since achieved widespread success across various domains. However, the scalability limitations of Transformers - particularly with respect to sequence length - have sparked renewed interest in novel recurrent models that are parallelizable during training, offer comparable performance, and scale more effectively. In this work, we revisit sequence modelling from a historical perspective, focusing on Recurrent Neural Networks (RNNs), which dominated the field for two decades before the rise of Transformers. Specifically, we examine LSTMs (1997) and GRUs (2014). We demonstrate that by simplifying these models, we can derive minimal versions (minLSTMs and minGRUs) that (1) use fewer parameters than their traditional counterparts, (2) are fully parallelizable during training, and (3) achieve surprisingly competitive performance on a range of tasks, rivalling recent models including Transformers.

연구 동기 및 목표

병렬 가능 학습의 맥락에서 전통적인 RNN(LSTMs/GRUs)을 재평가한다.
은닉 상태 의존성을 제거하는 최소화된 파라미터 효율 변형을 개발한다.
minLSTM과 minGRU가 현대 시퀀스 모델과 매칭되면서 큰 속도 증가로 병렬 학습이 가능하다는 것을 다양한 작업에서 입증한다.

제안 방법

LSTM/GRU 게이트를 재작성하여 h_{t-1} 의 의존성을 제거하고 병렬 스캔 형식에 맞춘다.
tanH 기반의 출력/상태 범위 제한을 제거하여 출력을 안정화하고 정규화한다.
적은 파라미터 수와 병렬 가능 학습을 가능하게 하는 minGRU와 minLSTM을 parallel prefix scan 알고리즘으로 도출한다.
여러 작업(합성 데이터, RL, 언어 모델링)에서 minGRU/minLSTM을 GRU/LSTM 및 최근 모델(예: Mamba)과 비교하는 실험적 평가를 수행한다.

실험 결과

연구 질문

RQ1고전적 LSTM/GRU 아키텍처를 역전파를 통한 시간적 흐름(backpropagation through time) 없이 병렬 학습이 가능하도록 재수식화할 수 있는가?
RQ2최소화된 변형(minGRU/minLSTM)이 파라미터가 훨씬 적고 병렬로도 Transformers 및 최신 순환 모델에 비해 경쟁력 있는 성능을 달성하는가?
RQ3은닉 상태 의존성 및 출력 범위 제약을 제거할 때 속도, 메모리, 안정성 간의 트레이드오프는 무엇인가?
RQ4선택적 복사(Selective Copying), D4RL RL 벤치마크, 언어 모델링과 같이 현대 시퀀스 모델 벤치마크에 사용되는 더 긴 시퀀스에서도 최소화된 RNN이 확장 가능한가?

주요 결과

minGRU와 minLSTM은 parallel scan 알고리즘을 통해 병렬 학습을 가능하게 하며, 보고된 실험에서 시퀀스 길이 512에 대해 기존 RNN 대비 약 175×의 속도 증가, LSTM(길이 512)에 대해서는 약 235×의 속도 증가를 달성한다.
최소 모델은 파라미터를 크게 더 적게 사용한다(예: minGRU ~ O(2 d_h d_x) vs GRU ~ O(3 d_h (d_x + d_h)); minLSTM ~ O(3 d_h d_x) vs LSTM ~ O(4 d_h (d_x + d_h)))).
훈련/실행 속도 비교에서 minGRU/minLSTM은 Mamba와 동등한 런타임을 보였고 전통적인 RNN보다 현저히 빠르며 시퀀스 길이 512에서 2.97 ms(minLSTM), 2.72 ms(minGRU), 2.71 ms(Mamba)이다.
더 긴 시퀀스(길이 4096)에서 minGRU와 minLSTM은 큰 속도 증가를 유지한다(각각 GRU/LSTM 대비 최소화 버전보다 1324× 및 1361× 빠름).
Selective Copying 및 D4RL RL 벤치마크에서 minGRU/minLSTM은 S4, Hyena, Transformer 기반 베이스라인과 경쟁력 있는 수준 또는 그 이상으로 문제를 해결하며 여러 데이터셋에서 평균 성능 면에서 Decision S4를 능가한다.
셰익스피어 언어 모델링에서 minGRU/minLSTM은 테스트 손실이 Mamba와 Transformers에 근접했고, Transformers가 비슷한 성능에 도달하기 위해 훨씬 더 많은 학습 단계가 필요했다(대략 2.5배 더 많은 단계).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.