QUICK REVIEW

[논문 리뷰] Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution

Ananya Kumar, Aditi Raghunathan|arXiv (Cornell University)|2022. 02. 21.

Advanced Neural Network Applications인용 수 158

한 줄 요약

이 논문은 사전학습된 특징을 미세조정하는 것이 선형 프로빙에 비해 OOD 정확도를 해칠 수 있음을 보여주고, LP-FT(선형 프로빙에 이어 미세조정)를 간단한 방법으로 제안하여 ID와 OOD 성능 모두를 개선한다.

ABSTRACT

When transferring a pretrained model to a downstream task, two popular methods are full fine-tuning (updating all the model parameters) and linear probing (updating only the last linear layer -- the "head"). It is well known that fine-tuning leads to better accuracy in-distribution (ID). However, in this paper, we find that fine-tuning can achieve worse accuracy than linear probing out-of-distribution (OOD) when the pretrained features are good and the distribution shift is large. On 10 distribution shift datasets (Breeds-Living17, Breeds-Entity30, DomainNet, CIFAR $ o$ STL, CIFAR10.1, FMoW, ImageNetV2, ImageNet-R, ImageNet-A, ImageNet-Sketch), fine-tuning obtains on average 2% higher accuracy ID but 7% lower accuracy OOD than linear probing. We show theoretically that this tradeoff between ID and OOD accuracy arises even in a simple setting: fine-tuning overparameterized two-layer linear networks. We prove that the OOD error of fine-tuning is high when we initialize with a fixed or random head -- this is because while fine-tuning learns the head, the lower layers of the neural network change simultaneously and distort the pretrained features. Our analysis suggests that the easy two-step strategy of linear probing then full fine-tuning (LP-FT), sometimes used as a fine-tuning heuristic, combines the benefits of both fine-tuning and linear probing. Empirically, LP-FT outperforms both fine-tuning and linear probing on the above datasets (1% better ID, 10% better OOD than full fine-tuning).

연구 동기 및 목표

미세조정과 선형 프로빙이 ID(In-Distribution) 및 OOD(Out-of-Distribution) 일반화에 어떻게 영향을 미치는지 조사한다.
강한 ID 이득에도 불구하고 미세조정이 OOD 성능을 해치는 조건을 규명한다.
LP-FT 전략을 제안하고 평가한다.
미세조정 중 특징 왜곡과 OOD 오차에 대한 이론적 통찰을 제공한다.

제안 방법

사전 학습된 특징을 가진 과매개변수화된 두층 선형 네트워크에서 미세조정과 선형 프로빙을 이론적으로 분석한다.
사전학습 특징과 데이터 부분공간 간의 정렬을 연구하기 위해 특징 추출기의 거리 d(B,B′)와 최대 주각을 정의하고 측정한다.
학습 범위 밖의 사전학습 특징 왜곡을 보이는 미세조정의 OOD 오차에 대한 하한을 도출한다.
10개의 분포 변화 벤치마크에서 LP, FT, LP-FT의 ID 및 OOD 성능을 이론상과 실증적으로 비교한다.
데이터셋 전반에 걸쳐 LP-FT가 ID와 OOD에서 FT와 LP를 모두 능가한다는 실증적 검증을 제공하고, FT가 예측대로 특징을 왜곡함을 확인한다.

실험 결과

연구 질문

RQ1어떤 조건에서 미세조정이 OOD 일반화에서 선형 프로빙보다 성능이 떨어지는가?
RQ2사전학습 특징과 학습 데이터 부분공간 간의 정렬이 미세조정 중 ID 및 OOD 성능에 어떤 영향을 미치는가?
RQ3표준 미세조정에서 관찰되는 ID-OOD 트레이드오프를 해결하기 위해 두 단계 LP-FT 전략이 가능한가?
RQ4다양한 분포 변화에 대한 실증적 결과가 미세조정 중 사전학습 특징의 이론적 왜곡을 뒷받침하는가?

주요 결과

미세조정은 평균적으로 ID 정확도는 더 높지만 10개의 분포 변화에서 OOD 정확도는 더 낮다(선형 프로빙보다 ID는 2% 높고 OOD는 7% 낮음).
미세조정은 사전학습 특징을 왜곡하여 ID 방향을 OOD 방향보다 더 많이 업데이트하여 분포 변화가 클 때 OOD 성능이 악화된다.
선형 프로빙에서 얻은 우수한 헤드를 사용해 초기화하고 그다음 미세조정을 수행하는 LP-FT가 단독 미세조정이나 단독 선형 프로빙보다 ID 및 OOD 정확도가 더 좋다(FT 대비 ID 약 1% 증가, OOD 약 10% 증가).
이론적 결과는 양질의 사전학습 특징이 있을 때 선형 프로빙이 OOD를 더 잘 외삽(일반화)한다고 보이며 특징을 보존하기 때문이고, 반면 미세조정은 ID에 적응하지만 OOD 포인트에 대해 특징을 왜곡한다는 것을 보여준다.
DomainNet, CIFAR→STL, ImageNet 변형 등 10개 분포 변화에 대한 실증 결과가 이론과 일치하며 LP-FT를 강력한 전략으로 선호한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.