[논문 리뷰] How fine can fine-tuning be? Learning efficient language models
이 논문은 BERT와 같은 대규모 언어 모델을 미세조정할 때, 매개변수를 업데이트하는 대신 사전 훈련된 가중치를 희소화함으로써 매우 효율적으로 수행할 수 있음을 보여준다. 즉, 일부 매개변수를 0으로 설정하는 방식이다. 놀랍게도 강력한 성능을 달성하기 위해 비제로인 가중치의 비율이 1~40%에 불과하며, 이러한 희소 구조는 태스크에 따라 특화되어 있어 성능 손실 없이 저메모리, 저연산량 추론을 가능하게 한다.
State-of-the-art performance on language understanding tasks is now achieved with increasingly large networks; the current record holder has billions of parameters. Given a language model pre-trained on massive unlabeled text corpora, only very light supervised fine-tuning is needed to learn a task: the number of fine-tuning steps is typically five orders of magnitude lower than the total parameter count. Does this mean that fine-tuning only introduces small differences from the pre-trained model in the parameter space? If so, can one avoid storing and computing an entire model for each task? In this work, we address these questions by using Bidirectional Encoder Representations from Transformers (BERT) as an example. As expected, we find that the fine-tuned models are close in parameter space to the pre-trained one, with the closeness varying from layer to layer. We show that it suffices to fine-tune only the most critical layers. Further, we find that there are surprisingly many good solutions in the set of sparsified versions of the pre-trained model. As a result, fine-tuning of huge language models can be achieved by simply setting a certain number of entries in certain layers of the pre-trained parameters to zero, saving both task-specific parameter storage and computational cost.
연구 동기 및 목표
- 대규모 모델 크기에도 불구하고 미세조정된 언어 모델의 매개변수들이 사전 훈련된 모델과 매개변수 공간에서 얼마나 가까운지 조사하기 위해.
- 메모리와 계산 비용을 줄이기 위해 저장 및 계산을 소수의 태스크 특화 매개변수에 국한하는 것이 가능한지 탐색하기 위해.
- 전체 미세조정의 효과적인 대안으로 사전 훈련된 가중치의 희소화가 가능한지, 성능을 유지하면서 효율적인 추론을 가능하게 하는지 판단하기 위해.
- 좋은 희소 매개변수 구성(슈퍼마스크)이 사전 훈련된 모델에만 존재하는지, 아니면 무작위 초기화된 가중치에서도 찾을 수 있는지 평가하기 위해.
- 다른 태스크에 대해 학습된 슈퍼마스크들이 공통된 0 패턴을 공유하는지, 아니면 주로 태스크 특화되어 있는지 평가하여 다중 태스크 학습 시스템 설계에 통찰을 제공하기 위해.
제안 방법
- 매개변수 공간에서 사전 훈련된 모델과 미세조정된 BERT 모델 간의 L1 거리와 각도 거리를 측정하여 유사도를 정량화하기 위해.
- 미세조정 중에 매개변수 업데이트 크기를 측정하여 BERT에서 가장 민감한 레이어를 식별한 후, 이러한 레이어만 미세조정하기 위해.
- 사전 훈련된 가중치의 일부를 0으로 설정함으로써 희소성을 강제하는 L0-노름 제약 조건을 적용하기 위해.
- 사전 훈련된 가중치를 고정한 채로 각 가중치에 대한 이진 마스크(0 또는 1)만 최적화하여 태스크 특화 슈퍼마스크를 학습하기 위해.
- MRPC, RTE, MNLI, QQP 등을 포함한 다양한 NLP 태스크에서 성능을 평가하기 위해 GLUE 벤치마크를 사용하기 위해.
- 사전 훈련된 가중치를 무작위로 섞은 모델과의 성능 비교를 통해 사전 훈련의 역할을 분리하여 평가하기 위해.
실험 결과
연구 질문
- RQ1미세조정된 언어 모델의 매개변수는 사전 훈련된 모델과 매개변수 공간에서 얼마나 가까운가?
- RQ2성능을 유지하면서 미세조정을 사전 훈련된 가중치의 희소화로 대체할 수 있는가?
- RQ3사전 훈련된 모델의 L0-이웃 영역 내에 우수한 희소 매개변수 구성(슈퍼마스크)이 다수 존재하는가?
- RQ4슈퍼마스크의 효과성은 초기 가중치의 사전 훈련 여부에 의존하는가, 아니면 무작위 가중치에서도 찾을 수 있는가?
- RQ5다른 태스크에 대해 학습된 슈퍼마스크들은 공통된 0 패턴을 공유하는가, 아니면 주로 태스크 특화되어 있는가?
주요 결과
- 대규모 모델 크기에도 불구하고, 미세조정된 BERT 모델은 사전 훈련된 모델과 매개변수 공간에서 매우 가까이 유지되며, L1 거리와 각도 거리가 작게 유지된다.
- MRPC와 RTE와 같은 단순한 태스크의 경우, 사전 훈련된 가중치 중 1~2%만 비제로여도 강력한 성능을 달성할 수 있으며, F1 스코어는 각각 91.3과 75.8을 기록한다.
- MNLI와 QQP와 같은 복잡한 태스크의 경우, 최대 12~13%의 가중치를 0으로 제거해도 경쟁력 있는 성능을 유지할 수 있다.
- 무작위로 섞인 사전 훈련된 가중치를 사용한 희소 모델은 성능이 유의미하게 열등하다 (예: MRPC에서 F1 스코어가 91.3에서 81.2로 감소), 이는 좋은 슈퍼마스크가 사전 훈련된 매개변수에만 고유하게 존재함을 증명한다.
- 다른 태스크에 대해 학습된 슈퍼마스크는 0 패턴에서 최소한의 겹침을 보이며, 각 태스크에 맞는 고유한 희소 구조가 필요함을 시사한다.
- 사전 훈련된 모델의 L0-이웃 영역 내에 수많은 고성능 희소 구성이 존재하므로, 마스크 최적화만으로도 저저장, 저비용의 미세조정이 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.