QUICK REVIEW

[논문 리뷰] Compressive Transformers for Long-Range Sequence Modelling

Jack W. Rae, Anna Potapenko|arXiv (Cornell University)|2019. 11. 13.

Topic Modeling참고 문헌 45인용 수 49

한 줄 요약

컴프레시브 트랜스포머는 압축된 과거 활성화를 통해 트랜스포머 메모리를 확장하여 Enwik8 및 WikiText-103에서 최첨단 perplexity/bpc를 달성하고 장거리 언어 모델 벤치마크로 PG-19를 제안한다.

ABSTRACT

We present the Compressive Transformer, an attentive sequence model which compresses past memories for long-range sequence learning. We find the Compressive Transformer obtains state-of-the-art language modelling results in the WikiText-103 and Enwik8 benchmarks, achieving 17.1 ppl and 0.97 bpc respectively. We also find it can model high-frequency speech effectively and can be used as a memory mechanism for RL, demonstrated on an object matching task. To promote the domain of long-range sequence learning, we propose a new open-vocabulary language modelling benchmark derived from books, PG-19.

연구 동기 및 목표

손실이 허용되는 인간 기억 압축을 모방하여 장거리 시퀀스 모델링의 필요성과 동기를 제시한다.
과거 활성화를 압축 메모리에 저장하는 기억 증가형 Transformer를 제안한다.
문자 수준 및 단어 수준 언어 모델링 벤치마크에서 최첨단 성능을 입증한다.
고주파 수 음성 모델링 및 강화학습 메모리 과제에의 적용 가능성을 보여준다.
PG-19, 책 규모의 개방 어휘 언어 모델링 벤치마크를 소개한다.

제안 방법

과거 활성화의 메모리(memory)와 두 번째로 압축된 메모리(compressed memories)를 갖춘 Transformer로 확장한다.
각 계층에서 다중헤드 어텐션을 통해 현재 메모리와 압축 메모리 모두를 주시한다.
가장 오래된 저장 메모리를 압축 함수 f_c를 사용해 새로운 압축 메모리를 형성한다.
과업 목표(attention-based language modelling)와 함께 압축 목적(예: 어텐션 재구성 또는 자동 인코딩)을 학습한다.
적절한 연산으로 확장된 컨텍스트를 보이도록 시간적 범위와 어텐션 사용을 분석한다.
Enwik8, WikiText-103, 음성, 강화학습 및 PG-19 벤치마크를 대상으로 실험한다.

실험 결과

연구 질문

RQ1컴프레시브 메모리가 프로hibitive compute 없이 Transformer 기반 모델의 유효한 시간적 범위를 확장할 수 있는가?
RQ2다양한 압축 함수 및 보조 손실이 장거리 언어 모델링 성능에 어떤 영향을 미치는가?
RQ3메모리에 압축이 추가될 때 문자- 및 단어 레벨 벤치마크에서 어떤 성능 향상이 나타나는가?
RQ4음성 모델링 및 강화학습 메모리 작업에 이 접근 방식이 적용 가능한가?
RQ5PG-19가 향후 모델들을 위한 의미 있는 장거리 벤치마크를 제공하는가?

주요 결과

24L Compressive Transformer에서 Enwik8에 대해 0.97 bits-per-character를 달성하여 이전 최첨단보다 개선했다.
WikiText-103에서 17.1 perplexity를 달성(18L TXL baseline 18.3; 18L Compressive Transformer 17.1).
PG-19에서 Compressive Transformer는 33.6 perplexity(검증)로, TransformerXL(36L)은 36.3이다.
모델이 희귀 단어를 더 잘 모델링하며 드문 단어 버킷에서 주목할 만한 이득이 나타난다.
모델이 음성 모델링에서도 경쟁력을 보이고 메모리 기반 과제의 IMPALA RL 에이전트에서 메모리 구성요소로 성공적으로 사용되었다.
PG-19를 오픈 어휘 및 책 규모의 장거리 언어 모델링 벤치마크로 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.