QUICK REVIEW

[논문 리뷰] Pretrained Transformers as Universal Computation Engines

Kevin Lü, Aditya Grover|arXiv (Cornell University)|2021. 03. 09.

Ferroelectric and Negative Capacitance Devices참고 문헌 60인용 수 99

한 줄 요약

GPT-2 스타일 언어 변환기가 자기-어텐션과 피드포워드 레이어를 고정하고 입력/출력 레이어와 레이어 표준화만 미세조정하여 다중 모달(수치, 시각, 단백질)에서도 경쟁력 있는 정확도와 더 빠른 수렴을 달성할 수 있으며, 이는 언어 사전학습이 범용 연산 능력을 부여한다는 것을 시사합니다.

ABSTRACT

We investigate the capability of a transformer pretrained on natural language to generalize to other modalities with minimal finetuning -- in particular, without finetuning of the self-attention and feedforward layers of the residual blocks. We consider such a model, which we call a Frozen Pretrained Transformer (FPT), and study finetuning it on a variety of sequence classification tasks spanning numerical computation, vision, and protein fold prediction. In contrast to prior works which investigate finetuning on the same modality as the pretraining dataset, we show that pretraining on natural language can improve performance and compute efficiency on non-language downstream tasks. Additionally, we perform an analysis of the architecture, comparing the performance of a random initialized transformer to a random LSTM. Combining the two insights, we find language-pretrained transformers can obtain strong performance on a variety of non-language tasks.

연구 동기 및 목표

자연어에 대해 사전 학습된 트랜스포머가 최소한의 미세조정으로 다른 모달리티에 일반화할 수 있는지 조사한다.
크로스 도메인 전달에서 사전 학습 모달리티와 아키텍처의 역할을 평가한다.
자기-어텐션 및 피드포워드 레이어를 고정하고 주변 구성 요소만 미세조정하는 것의 중요성을 평가한다.
크로스-모달 태스크에서 Transformer와 LSTM 베이스라인을 비교한다.
연결된 다운스트림 태스크를 위한 언어 사전학습으로 인한 계산 효율성 향상을 분석한다.

제안 방법

고정된 사전 학습된 GPT-2 트랜스포머를 FPT(범용 계산 엔진)로 사용하기 위해 자기-어텐션과 피드포워드 레이어를 고정한다.
다양한 다운스트림 태스크에 대해 입력 임베딩 레이어, 출력 레이어, 레이어 노름(선택적으로 위치 임베딩 포함)만 미세조정한다.
수치 계산, 이미지 분류, 단백질 접힘 예측에 걸친 일곱 개의 분류 태스크에서 평가한다.
완전하게 학습된 트랜스포머와 LSTM, 그리고 다른 사전학습 모달리티(Bit Memory, ViT)와의 비교를 수행한다.
전이의 원인이 되는 주의 패턴, 수렴 속도, 제거 실험(ablations)을 분석한다.

실험 결과

연구 질문

RQ1언어로 사전 학습된 트랜스포머가 핵심 주의/FFN 매개변수를 업데이트하지 않고도 다른 모달리티로 전달될 수 있는가?
RQ2크로스-모달 전달에서 사전 학습 모달리티(언어 대 무작위 대 이미지)의 중요성은 어느 정도인가?
RQ3전이 성능에 있어 트랜스포머 아키텍처가 LSTM 베이스라인에 비해 필수적인가?
RQ4다른 모달리티로 전달할 때 언어 사전학습이 무작위 초기화보다 계산 효율성을 향상시키는가?
RQ5미세조정해야 하는 구성 요소(입력 레이어, 출력 레이어, 레이어 노름, 위치 임베딩) 중 가장 중요한 것은 무엇인가?

주요 결과

모델	비트 메모리	XOR	리스트Ops	MNIST	CIFAR-10	CIFAR-10 LRA	호몰로지
FPT	100%	100%	38.4%	98.0%	72.1%	38.6%	12.7%
전체	100%	100%	38%	99.1%	70.3%	42%	9%
LSTM	60.9%	50.1%	17.1%	99.5%	73.6%	11.7%	12%

고정된 사전 학습 트랜스포머가 완전하게 학습된 트랜스포머 및 LSTM에 비해 일곱 개의 다운스트림 태스크에서 경쟁력 있는 정확도를 달성한다.
Bit Memory 및 XOR 태스크는 FPT로 100%를 달성하는 반면, ListOps, MNIST, CIFAR-10, CIFAR-10 LRA, 및 Homology는 LSTM보다 상당한 이점을 보이며 전체 트랜스포머 베이스라인에 근접한다.
언어 사전학습은 무작위 초기화에 비해 태스크 전반에서 더 빠른 수렴을 제공한다.
모델의 크기가 커질수록 성능이 향상되며, CIFAR-10 정확도도 베이스 설정에서 68.2%에서 68.2% → 72.1%로 상승하며 더 큰 변형에서 더 높아진다.
주의 레이어를 고정하면 일부 비트 태스크에서 해석 가능한 태스크 관련 주의 패턴이 나타나 다운스트림 필요와 의미적 정렬을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.