QUICK REVIEW

[논문 리뷰] Pay Attention to MLPs

Hanxiao Liu, Zihang Dai|arXiv (Cornell University)|2021. 05. 17.

Multimodal Machine Learning Applications참고 문헌 44인용 수 33

한 줄 요약

본 논문은 gMLP를 제안합니다. 이는 공간 게이팅 유닛을 갖춘 MLP 기반 아키텍처로, 어텐션 기반 Transformer의 성능을 언어 및 비전 태스크에서 따라잡을 수 있으며, 더 많은 데이터와 계산이 주어졌을 때 Transformer와의 스케일링 패리티를 보이고, 토이한 어텐션이 NLP 파인튜닝에서 선택적으로 성능을 향상시키는지 보여줍니다.

ABSTRACT

Transformers have become one of the most important architectural innovations in deep learning and have enabled many breakthroughs over the past few years. Here we propose a simple network architecture, gMLP, based on MLPs with gating, and show that it can perform as well as Transformers in key language and vision applications. Our comparisons show that self-attention is not critical for Vision Transformers, as gMLP can achieve the same accuracy. For BERT, our model achieves parity with Transformers on pretraining perplexity and is better on some downstream NLP tasks. On finetuning tasks where gMLP performs worse, making the gMLP model substantially larger can close the gap with Transformers. In general, our experiments show that gMLP can scale as well as Transformers over increased data and compute.

연구 동기 및 목표

NLP와 비전에서 Transformer 유사 성공에 self-attention이 필수적인지 평가한다.
cross-token 상호작용을 self-attention 없이 가능하게 하는 MLP 기반 대안(gMLP)을 개발한다.
ImageNet 및 MLM 태스크에서 gMLP를 ViT/Transformer 기준선과 비교하기 위해 평가한다.
모델 크기와 데이터 규범에 따른 gMLP와 Transformer의 확장 동향을 탐구한다.
NLP 파인튜닝에서 gMLP에 tiny attention을 추가했을 때 cross-sentence 정렬성에 미치는 영향을 조사한다.

제안 방법

채널 프로젝션과 Spatial Gating Unit(SGU)을 갖춘 블록의 스택으로 gMLP를 구성하여 cross-token 상호작용을 곱셈 게이트를 통해 강제한다.
SGU를 s(Z)=Z ⊙ f_{W,b}(Z)로 정의하며, W는 0에 가깝게 초기화하고 b를 1로 설정해 시작 시 항등으로 작동하도록 한다.
Z를 Z1, Z2로 분할하여 두 경로 게이팅(Z1 ⊙ f(Z2))을 구현한다.
s(·)에 대해 공간적 depthwise 유사 연산을 사용하여 지역성 및 데이터로 학습된 커널 형태를 가능하게 한다.
외부 데이터 없이 ImageNet에서 gMLP를 ViT/DeiT와 비교하며 DeiT와 유사한 정규화를 사용한다.
BERT 설정에서 MLM를 위해 gMLP를 사전학습·파인튜닝하고, 언어 모델의 손실 및 다운스트림 태스크를 Transformer 기준선과 비교한다.
Transformer와의 모델 규모 확장에 따른 perplexity 및 GLUE 파인튜닝 결과를 비교하기 위해 확장 실험을 수행한다.
작은 단일 헤드 self-attention을 추가한 혼합 모델(aMLP)을 통해 cross-sentence 정렬 효과를 평가한다.

실험 결과

연구 질문

RQ1시각 및 언어 모델에서 self-attention이 강한 성능에 필수적인가, 아니면 MLP 기반 아키텍처로 충분한가?
RQ2NLP에서 gMLP가 Transformer와 비슷한 pretraining perplexity 및 다운스트림 태스크 성능을 달성할 수 있는가?
RQ3시각 및 NLP 벤치마크에서 데이터와 계산이 증가함에 따라 gMLP와 Transformer 모델이 어떻게 확장되는가?
RQ4NLP 파인튜닝 과제에서 cross-sentence 정렬이 필요한 경우, gMLP에 tiny attention 모듈을 추가하는 것이 미치는 영향은 무엇인가?
RQ5파라미터 효율성과 정확도 측면에서 gMLP와 Transformer 계열 간의 실제 트레이드오프는 무엇인가?

주요 결과

gMLP는 비슷한 학습 설정에서 ImageNet에서 DeiT와 비슷한 정확도를 달성하며 하나의 변형에서 파라미터가 66% 적고, 다른 MLP 유사 모델보다도 우수한 경우가 있다.
MLM 사전학습에서 SGU를 갖춘 gMLP는 Transformer에 근접한 perplexity를 달성하여 perplexity가 self-attention의 존재가 아니라 모델 용량을 따라간다는 것을 시사한다.
확장 실험에서 깊고 능력 있는 gMLP는 유사한 용량에서 Transformer의 perplexity와 GLUE 파인튜닝 점수를 맞추거나 능가할 수 있으며, perplexity vs. 매개변수의 거듭제곱 법칙이 관찰된다.
작은 단일 헤드 self-attention 모듈(aMLP)은 MNLI, SQuAD와 같은 NLP 파인튜닝 작업에서 성능을 크게 향상시키며, 같은 용량에서 Transformer를 능가하기도 한다.
Spacial Gating Unit은 GLU와 SE 블록을 연상시키는 게이팅 메커니즘으로 토큰 간 상호작용을 가능하게 하지만 정적 공간 프로젝션을 사용하여 비어텐션 방식으로 고차원 토큰 상호작용을 수행한다.
학습된 공간 가중치의 시각화는 gMLP가 지역성 및 공간 불변성을 학습할 수 있음을 시사하며, 데이터 기반의 비정규 컨볼루션을 토큰에 걸쳐 효과적으로 수행한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.