[논문 리뷰] Parameter-Efficient Transfer Learning for NLP
이 논문은 Transformer 모델에 어댑터 모듈을 도입하여 NLP 태스크에 대한 매개변수 효율적 전이 학습을 가능하게 하고, 작은 비율의 태스크 특화 매개변수로 거의 전체 파인튜닝 성능에 근접하게 만듭니다.
Fine-tuning large pre-trained models is an effective transfer mechanism in NLP. However, in the presence of many downstream tasks, fine-tuning is parameter inefficient: an entire new model is required for every task. As an alternative, we propose transfer with adapter modules. Adapter modules yield a compact and extensible model; they add only a few trainable parameters per task, and new tasks can be added without revisiting previous ones. The parameters of the original network remain fixed, yielding a high degree of parameter sharing. To demonstrate adapter's effectiveness, we transfer the recently proposed BERT Transformer model to 26 diverse text classification tasks, including the GLUE benchmark. Adapters attain near state-of-the-art performance, whilst adding only a few parameters per task. On GLUE, we attain within 0.4% of the performance of full fine-tuning, adding only 3.6% parameters per task. By contrast, fine-tuning trains 100% of the parameters per task.
연구 동기 및 목표
- 다수의 NLP 태스크가 순차적으로 도입될 때 매개변수 효율적 전이 학습의 필요성을 제시한다.
- 사전 학습된 Transformer에 삽입된 어댑터 모듈을 제안하여 compacte하고 확장 가능한 태스크 적응을 가능하게 한다.
- 어댑터가 GLUE 및 기타 NLP 태스크에서 소수의 파라미터 풋프린트로 거의 최상위 성능에 근접함을 보여준다.
제안 방법
- 각 Transformer's sub-layer 뒤에 삽입된 병목 어댑터 모듈을 도입한다; 어댑터는 거의 항등화 초기화가 된 작은 학습 가능한 레이어다.
- 원래 모델 매개변수는 고정하고, 어댑터 매개변수와 태스크 특화 레이어 노말라이즈와 분류기 헤드만 학습한다.
- 매개변수 증가를 제어하기 위해 입력 차원 d를 가진 크기 m의 두-layer 병목 구성을 사용한 어댑터를 추가한다.
- 각 Transformer 레이어에서 잔차 연결 이전이 아니라 입력 크기로의 projection 이후에 어댑터를 부착하고, 태스크별 레이어 노말 파라미터를 학습한다.
- GLUE와 SQuAD에서 전체 파인튜닝에 비해 아주 작은 비율의 학습 가능한 매개변수(레이어당 원래 모델의 0.5-8%까지)로도 성능이 거의 유지됨을 보여준다.
- 다양한 데이터셋에서 어댤터-튜닝과 전체 파인튜닝, 최상층 튜닝을 비교하여 매개변수 효율성의 이점을 입증한다.
실험 결과
연구 질문
- RQ1어댑터 모듈이 모델 전체를 재학습하지 않고 순차적으로 태스크별 학습을 가능하게 하는가?
- RQ2다양한 NLP 태스크에서 어댑터 튜닝의 매개변수 효율성은 전체 파인튜닝과 어떻게 비교되는가?
- RQ3성능과 매개변수 수 간의 trade-off에서 어댑터 크기의 영향은 무엇인가?
- RQ4어댄터가 분류를 넘어 SQuAD와 같은 태스크에도 일반화되는가?
- RQ5어떤 층이 태스크 적응에 가장 큰 기여를 하는가?
주요 결과
| Model | Total Params (×) | Trained Params / Task (%) | CoLA | SST | MRPC | STS-B | QQP | MNLI-m | MNLI-mm | QNLI | RTE | Total GLUE Score |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| BERT LARGE | 9.0× | 100% | 60.5 | 94.9 | 89.3 | 87.6 | 72.1 | 86.7 | 85.9 | 91.1 | 70.1 | 80.4 |
| Adapters (8-256) | 1.3× | 3.6% | 59.5 | 94.0 | 89.5 | 86.9 | 71.8 | 84.9 | 85.1 | 90.7 | 71.5 | 80.0 |
| Adapters (64) | 1.2× | 2.1% | 56.9 | 94.2 | 89.6 | 87.3 | 71.8 | 85.3 | 84.6 | 91.4 | 68.8 | 79.6 |
- Adapter 기반 튜닝은 GLUE에서 전체 파인튜닝에 비해 0.4% 이내의 성능 차이로, 각 태스크당 학습 매개변수의 약 3%만을 사용한다.
- GLUE 및 17개의 추가 태스크에 걸쳐 어댑터는 태스크 특이적 매개변수를 크게 줄이면서 최상위 수준의 결과에 근접한 성능을 낸다(GLUE 합계 1.3x; 17개 태스크에서 1.19x 전체).
- 어댑터 크기는 명확한 trade-off를 제공한다; 매우 작은 어댑터(매개변수의 0.5-2%)도 강력한 성능을 제공하며, 더 높은 레이어가 일반적으로 태스크 특이적임.
- 레이어 정규화만 학습하는 방식은 어댑터보다 효과가 현저히 낮아 더 깊은 표현을 수정하는 이점이 강조된다.
- SQuAD 결과는 적은 수의 학습 가능한 매개변수로도 경쟁력 있는 성능을 보여준다(예: 2% 어댑터는 거의 최고 수준의 F1; 0.1% 어댑터도 강한 결과를 낸다).
- Abalation은 어댑터가 집합적으로 성능 향상을 가능하게 하며, 더 높은 레이어가 태스크 적응에 더 큰 기여를 한다고 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.