[논문 리뷰] Augmenting Self-attention with Persistent Memory
본 논문은 컨텍스트 자가 어텐션과 키-값 벡터의 지속적 메모리를 결합하는 모든-어텐션 계층을 도입하여 전통적인 피드포워드 하위층을 대체하고 문자 및 단어 벤치마크에서 경쟁력 있는 언어 모델링 성능을 달성한다.
Transformer networks have lead to important progress in language modeling and machine translation. These models include two consecutive modules, a feed-forward layer and a self-attention layer. The latter allows the network to capture long term dependencies and are often regarded as the key ingredient in the success of Transformers. Building upon this intuition, we propose a new model that solely consists of attention layers. More precisely, we augment the self-attention layers with persistent memory vectors that play a similar role as the feed-forward layer. Thanks to these vectors, we can remove the feed-forward layer without degrading the performance of a transformer. Our evaluation shows the benefits brought by our model on standard character and word level language modeling benchmarks.
연구 동기 및 목표
- 피드포워드 하위층을 지속적 메모리로 대체하여 트랜스포머 아키텍처를 단순화하는 것을 모티브로 한다.
- 주변 정보와 지속적 정보를 모두 어텐션으로 통합하는 모든-어텐션 계층을 제안한다.
- 지속적 메모리가 피드포워드 구성요소를 성능 저하 없이 대체할 수 있음을 보여준다.
- 일반적인 문자 및 단어 수준 언어 모델링 벤치마크에서 평가하고 트랜스포머 베이스라인과 비교한다.
제안 방법
- 피드포워드 하위층을 어텐션 메커니즘으로 재구성하고 이를 자기어텐션과 결합한다.
- 맥락 없이 작업 전체 메모리로 작용하는 지속적 키-값 벡터 세트를 도입한다.
- 맥락 키/값과 지속적 메모리 키/값을 연결하는 모든-어텐션 계층을 구성한다.
- 맥락 벡터와 지속적 벡터 모두에 대해 AddNorm 잔차를 가진 다중 헤드 어텐션을 적용한다.
- 길고 큰 어휘를 처리하기 위해 상대 위치 인코딩과 적응형 컨텍스트 기법을 사용한다.
- 표준 최적화 및 정규화 설정으로 문자- 및 단어 수준 언어 모델링 벤치마크에서 학습 및 평가한다.
실험 결과
연구 질문
- RQ1지속적 메모리 벡터가 피드포워드 하위층을 Transformer 아키텍처에서 성능 저하 없이 대체할 수 있는가?
- RQ2맥락과 지속적 메모리에 모두 주의를 기울이는 통합된 모든-어텐션 계층이 벤치마크 데이터셋에서 언어 모델링 성능을 향상시키는가?
- RQ3지속적 메모리의 서로 다른 통합 전략이 모델의 효과성에 어떤 영향을 미치는가?
- RQ4피드포워드 계층을 지속적 메모리로 대체할 때 심층 트랜스포머 스택의 계산 및 매개변수 의미는 무엇인가?
주요 결과
- 지속적 메모리가 있는 모든-어텐션 네트워크는 대체로 몇몇 설정에서 더 적은 매개변수로 문자 수준 벤치마크에서 최첨단과 경쟁하는 성능을 보인다.
- enwik8(문자 수준)에서 적응형 스팬을 가진 대형 모든-어텐션 모델은 0.98–1.01 bpc 범위의 성능을 달성하며 종종 비교 가능한 트랜스포머 베이스라인과 일치하거나 이를 능가한다.
- text8(문자 수준)에서 소형 및 대형 모든-어텐션 변형은 대형 설정에서 더 적은 매개변수로 기존의 최고 성능과 거의 일치하거나 더 나아가기도 한다(예: 0.98–1.08 bpc).
- WikiText-103(단어 수준)에서 적응형 스팬을 가진 모든-어텐션 네트워크는 이전의 소형 모델 결과보다 수 perplexity 포인트들로 우수하다(예: Transformer-XL의 동등한 규모의 이전 최고보다 약 3.4 ppl 우수).
- 추론 연구에서 지속적 벡터가 필수적임(N은 대략 1024로 충분)하며 맥락 벡터와 지속적 벡터를 함께 어텐션하는 것이 개별 어텐션 같은 대안 통합 방식보다 우수하다는 것을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.