[논문 리뷰] Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution
이 논문은 사전학습된 특징을 미세조정하는 것이 선형 프로빙에 비해 OOD 정확도를 해칠 수 있음을 보여주고, LP-FT(선형 프로빙에 이어 미세조정)를 간단한 방법으로 제안하여 ID와 OOD 성능 모두를 개선한다.
When transferring a pretrained model to a downstream task, two popular methods are full fine-tuning (updating all the model parameters) and linear probing (updating only the last linear layer -- the "head"). It is well known that fine-tuning leads to better accuracy in-distribution (ID). However, in this paper, we find that fine-tuning can achieve worse accuracy than linear probing out-of-distribution (OOD) when the pretrained features are good and the distribution shift is large. On 10 distribution shift datasets (Breeds-Living17, Breeds-Entity30, DomainNet, CIFAR $ o$ STL, CIFAR10.1, FMoW, ImageNetV2, ImageNet-R, ImageNet-A, ImageNet-Sketch), fine-tuning obtains on average 2% higher accuracy ID but 7% lower accuracy OOD than linear probing. We show theoretically that this tradeoff between ID and OOD accuracy arises even in a simple setting: fine-tuning overparameterized two-layer linear networks. We prove that the OOD error of fine-tuning is high when we initialize with a fixed or random head -- this is because while fine-tuning learns the head, the lower layers of the neural network change simultaneously and distort the pretrained features. Our analysis suggests that the easy two-step strategy of linear probing then full fine-tuning (LP-FT), sometimes used as a fine-tuning heuristic, combines the benefits of both fine-tuning and linear probing. Empirically, LP-FT outperforms both fine-tuning and linear probing on the above datasets (1% better ID, 10% better OOD than full fine-tuning).
연구 동기 및 목표
- 미세조정과 선형 프로빙이 ID(In-Distribution) 및 OOD(Out-of-Distribution) 일반화에 어떻게 영향을 미치는지 조사한다.
- 강한 ID 이득에도 불구하고 미세조정이 OOD 성능을 해치는 조건을 규명한다.
- LP-FT 전략을 제안하고 평가한다.
- 미세조정 중 특징 왜곡과 OOD 오차에 대한 이론적 통찰을 제공한다.
제안 방법
- 사전 학습된 특징을 가진 과매개변수화된 두층 선형 네트워크에서 미세조정과 선형 프로빙을 이론적으로 분석한다.
- 사전학습 특징과 데이터 부분공간 간의 정렬을 연구하기 위해 특징 추출기의 거리 d(B,B′)와 최대 주각을 정의하고 측정한다.
- 학습 범위 밖의 사전학습 특징 왜곡을 보이는 미세조정의 OOD 오차에 대한 하한을 도출한다.
- 10개의 분포 변화 벤치마크에서 LP, FT, LP-FT의 ID 및 OOD 성능을 이론상과 실증적으로 비교한다.
- 데이터셋 전반에 걸쳐 LP-FT가 ID와 OOD에서 FT와 LP를 모두 능가한다는 실증적 검증을 제공하고, FT가 예측대로 특징을 왜곡함을 확인한다.
실험 결과
연구 질문
- RQ1어떤 조건에서 미세조정이 OOD 일반화에서 선형 프로빙보다 성능이 떨어지는가?
- RQ2사전학습 특징과 학습 데이터 부분공간 간의 정렬이 미세조정 중 ID 및 OOD 성능에 어떤 영향을 미치는가?
- RQ3표준 미세조정에서 관찰되는 ID-OOD 트레이드오프를 해결하기 위해 두 단계 LP-FT 전략이 가능한가?
- RQ4다양한 분포 변화에 대한 실증적 결과가 미세조정 중 사전학습 특징의 이론적 왜곡을 뒷받침하는가?
주요 결과
- 미세조정은 평균적으로 ID 정확도는 더 높지만 10개의 분포 변화에서 OOD 정확도는 더 낮다(선형 프로빙보다 ID는 2% 높고 OOD는 7% 낮음).
- 미세조정은 사전학습 특징을 왜곡하여 ID 방향을 OOD 방향보다 더 많이 업데이트하여 분포 변화가 클 때 OOD 성능이 악화된다.
- 선형 프로빙에서 얻은 우수한 헤드를 사용해 초기화하고 그다음 미세조정을 수행하는 LP-FT가 단독 미세조정이나 단독 선형 프로빙보다 ID 및 OOD 정확도가 더 좋다(FT 대비 ID 약 1% 증가, OOD 약 10% 증가).
- 이론적 결과는 양질의 사전학습 특징이 있을 때 선형 프로빙이 OOD를 더 잘 외삽(일반화)한다고 보이며 특징을 보존하기 때문이고, 반면 미세조정은 ID에 적응하지만 OOD 포인트에 대해 특징을 왜곡한다는 것을 보여준다.
- DomainNet, CIFAR→STL, ImageNet 변형 등 10개 분포 변화에 대한 실증 결과가 이론과 일치하며 LP-FT를 강력한 전략으로 선호한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.