Skip to main content
QUICK REVIEW

[논문 리뷰] Surgical Fine-Tuning Improves Adaptation to Distribution Shifts

Yoonho Lee, Annie S. Chen|arXiv (Cornell University)|2022. 10. 20.
Domain Adaptation and Few-Shot Learning인용 수 47
한 줄 요약

논문은 소수의 연속적인 신경망 계층 부분만을 미세조정하는 Surgical fine-tuning을 소개하고, 표적 데이터가 작아도 다양한 분포 변화에서 전체 미 fine-tuning보다 우수할 수 있음을 보인다. 최적의 Layer 부분 집합은 시프트 유형에 따라 다르며, 이론적 결과는 입력 시프트에는 첫 번째 계층 미세조정, 출력 시프트에는 마지막 계층 미세조정을 지지한다.

ABSTRACT

A common approach to transfer learning under distribution shift is to fine-tune the last few layers of a pre-trained model, preserving learned features while also adapting to the new task. This paper shows that in such settings, selectively fine-tuning a subset of layers (which we term surgical fine-tuning) matches or outperforms commonly used fine-tuning approaches. Moreover, the type of distribution shift influences which subset is more effective to tune: for example, for image corruptions, fine-tuning only the first few layers works best. We validate our findings systematically across seven real-world data tasks spanning three types of distribution shifts. Theoretically, we prove that for two-layer neural networks in an idealized setting, first-layer tuning can outperform fine-tuning all layers. Intuitively, fine-tuning more parameters on a small target dataset can cause information learned during pre-training to be forgotten, and the relevant information depends on the type of shift.

연구 동기 및 목표

  • 분포 시프트 하에서의 미세조정 동향을 제시하고 모든 계층이나 마지막 계층만 미세조정하는 표준 접근 방식의 한계를 분석한다.
  • 대상 데이터가 제한적일 때 적은 연속 하위 집합을 미세조정하고 대부분의 계층은 고정하는 Surgical fine-tuning을 제안한다.
  • 세 가지 시프트 유형에 걸친 일곱 개의 실제 세계 태스크를 체계적으로 평가하여 어떤 계층 하위 집합이 가장 효과적인지 확인한다.
  • 다른 시프트 유형이 이득을 주는 이유를 설명하는 이론적 통찰을 제공하고, 두 계층 네트워크 분석을 포함한다.
  • 미세조정할 계층을 자동으로 선택하는 기준의 가능성을 탐색하고 그 효과를 검증한다.

제안 방법

  • Surgical fine-tuning을 S 계층 부분만 최적화하고 다른 계층은 고정하는 정의를 제공한다.
  • 처음 블록, 가운데 블록, 마지막 블록 또는 단일 블록 등 다양한 S 선택을 9개의 실제 세계 데이터세트에서 실험한다.
  • 대상 도메인에서 제한된 대상 데이터로 미세조정한 후 전체 미세조정 및 다른 베이스라인과 비교하여 표적 도메인 정확도를 평가한다.
  • 두 계층 네트워크를 이론적으로 분석하여 입력 잡음 대비 첫 번째 계층 미세조정이 더 나은지, 출력 잡음 대비 마지막 계층 미세조정이 더 나은지 보여준다.
  • 그레이디언트 통계를 기반으로 어떤 계층을 미세조정할지 자동으로 선택하는 기준(Auto-RGN, Auto-SNR)을 도입한다.
  • 온라인 업데이트가 이루어지는 테스트 시간(Unsupervised/test-time adaptation) 환경에서 초기 계층의 미세조정이 이득을 주는지 평가한다.
  • 소스에서 사전 학습하고 대상에서 미세조정하는 일반적인 학습 절차를 사용하며 대상 데이터에 기반한 조기 중단을 적용한다.

실험 결과

연구 질문

  • RQ1Surgical fine-tuning(작은 하위 계층 집합의 미세조정)이 다양한 분포 시프트에서 전체 미세조정보다 우수한가?
  • RQ2다양한 시프트 유형(입력 수준, 특징 수준, 출력 수준)에서 가장 효과적인 계층 하위 집합은 무엇인가(처음 블록, 가운데 블록, 마지막 블록)?
  • RQ3자동 계층 선택 기준이 전체 미세조정의 성능과 일치하거나 능가하는 계층을 신뢰성 있게 식별할 수 있는가?
  • RQ4특정 분포 시프트에서 조기 계층 vs. 후기 계층의 미세조정이 유리한 시점을 설명하는 이론적 설명은 무엇인가?
  • RQ5무감독/테스트 시 시간 적응 시나리오에서도 초기 계층의 Surgical fine-tuning이 이익을 주는가?

주요 결과

ParametersCamelyon17FMoW
미세 조정 없음86.235.5
전체92.3 (1.7)38.9 (0.5)
Embedding95.6 (0.4)36.0 (0.1)
처음 세92.5 (0.5)39.8 (1.0)
마지막 세87.5 (4.1)44.9 (2.6)
마지막 계층90.1 (1.5)36.9 (5.5)
  • Surgical fine-tuning은 한 블록의 계층으로도 모든 실험 도메인에서 전체 미세조정보다 일관되게 우수한 성능을 보인다.
  • 시프트 유형에 따라 최적의 미세조정 블록이 다르다: 입력 수준 시프트에는 초기 계층이, 특징 수준 시프트에는 가운데 블록이, 출력 수준 시프트에는 마지막 계층이 우수하다.
  • CIFAR-10/ CIFAR-10-C에서 처음 블록의 미세조정은 대상 데이터 양에 따라 전체 미세조정에 필적하거나 이를 상회할 수 있다.
  • 일곱 개의 실제 데이터셋에 걸쳐 시프트 유형에 따른 동적 계층 선택이 모든 매개변수를 미세조정하는 것보다 우수한 성능을 낸다.
  • Relative Gradient Norm(Auto-RGN)을 이용한 자동 선택은 전체 미세조정에 비해 종종 동등하거나 더 나은 성능을 보이고, 교차 검증된 블록 선택과도 경쟁력이 있다.
  • 이론적 결과는 첫 계층만 미세조정해도 목표 손실이 0에 도달하는 조건과 전체 미세조정이 실패하는 경우, 마지막 계층 미세조정이 라벨 섞임에 더 잘 대처하는 경우를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.