[논문 리뷰] What Would Elsa Do? Freezing Layers During Transformer Fine-Tuning
논문은 사전 학습된 트랜스포머 모델(BERT와 RoBERTa)의 마지막 몇 개 레이어를 얼마나 미세조정해야 거의 전체 성능에 도달하는지 조사하며, 마지막 레이어의 약 1/4이 많은 작업에서 90% 품질에 충분하다는 것을 여러 작업에서 확인하되 예외도 있다.
Pretrained transformer-based language models have achieved state of the art across countless tasks in natural language processing. These models are highly expressive, comprising at least a hundred million parameters and a dozen layers. Recent evidence suggests that only a few of the final layers need to be fine-tuned for high quality on downstream tasks. Naturally, a subsequent research question is, "how many of the last layers do we need to fine-tune?" In this paper, we precisely answer this question. We examine two recent pretrained language models, BERT and RoBERTa, across standard tasks in textual entailment, semantic similarity, sentiment analysis, and linguistic acceptability. We vary the number of final layers that are fine-tuned, then study the resulting change in task-specific effectiveness. We show that only a fourth of the final layers need to be fine-tuned to achieve 90% of the original quality. Surprisingly, we also find that fine-tuning all layers does not always help.
연구 동기 및 목표
- BERT와 RoBERTa에서 마지막 레이어 중 몇 개를 미세조정해야 표준 NLP 태스크에서 높은 성능을 유지할 수 있는지 결정한다.
- 여러 데이터셋에 걸쳐 미세조정된 레이어 수와 태스크 성능 간의 관계를 정량화한다.
- 레이어를 더 적게 미세조정하거나 모든 레이어를 미세조정하는 것이 최상의 결과를 내는 태스크를 식별한다.
제안 방법
- 임베딩을 고정하고 초기 레이어를 점점 더 많이 고정시키면서 BERT와 RoBERTa 변형(BASE 및 LARGE)을 미세조정한다(N = L/2에서 L까지).
- GLUE 태스크(CoLA, SST-2, MRPC, STS-B, QQP, MNLI, QNLI, RTE)에서 평가한다.
- Adam 옵티마이저를 배치 크기 16으로 사용하고, 학습률을 [1e-5, 5e-5] 범위에서 태스크별 하이퍼파라미터 선검색을 수행한다.
- 출력 계층을 제외한 비출력 레이어를 전혀 고정하지 않음, 일부 고정, 또는 전체를 고정하는 경우의 성능을 비교하고, 전체 모델 미세조정 대비 상대 이득을 보고한다.
- 더 많은 레이어를 해제할 때 성능 변화를 관찰하여 계층별 기여를 분석하고, 수익 감소(diminishing returns)와 SST-2에서의 과파라미터화 가능성을 식별한다.
실험 결과
연구 질문
- RQ1최종 트랜스포머 레이어 중 몇 개를 미세조정해야 전체 모델 성능의 목표 분수(예: 90%)를 달성할 수 있는가?
- RQ2초기 레이어를 고정하는 것이 작업과 모델 크기(BASE vs LARGE) 전반에 걸쳐 일관된 성능을 낳는가?
- RQ3모든 레이어를 미세조정하지 않는 것이 전체 미세조정에 비해 성능을 개선하거나 악화시키는 태스크가 있는가?
- RQ4해제된 레이어 수의 함수로서 성능 증가의 형태는 어떠한가?
주요 결과
- 대부분의 태스크에서 최종 레이어의 약 1/4만 미세조정하면 전체 모델 품질의 약 90%를 달성할 수 있다.
- SST-2에서 모든 레이어를 미세조정하지 않는 것이 전체 미세조정과 비교해 품질을 향상시킬 수 있다.
- 모든 레이어를 미세조정하는 것이 항상 도움이 되지는 않으며 일부 태스크에서 더 나쁜 성능을 낼 수 있다.
- 더 많은 레이어를 해제할수록 수익 감소가 나타나고, 네트워크의 절반 정도가 대개 전체 성능에 근접하게 하는 경우가 많으며, 더 큰 모델에서도 비슷한 경향을 보인다.
- 대형 변종(BASE vs LARGE)은 12~16 레이어를 고정하는 것이 특정 태스크에서 일관된 이득을 보임을 보여주며, 경우에 따라 과파라미터화가 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.