[논문 리뷰] Singular Value Fine-tuning: Few-shot Segmentation requires Few-parameters Fine-tuning
SVF는 소수 샷 분할에서 백본의 특이값만(SVD를 통해) 미세조정하여 일반화 성능을 향상시키고 Pascal-5i 및 COCO-20i에서 최첨단 결과를 얻습니다.
Freezing the pre-trained backbone has become a standard paradigm to avoid overfitting in few-shot segmentation. In this paper, we rethink the paradigm and explore a new regime: {\em fine-tuning a small part of parameters in the backbone}. We present a solution to overcome the overfitting problem, leading to better model generalization on learning novel classes. Our method decomposes backbone parameters into three successive matrices via the Singular Value Decomposition (SVD), then {\em only fine-tunes the singular values} and keeps others frozen. The above design allows the model to adjust feature representations on novel classes while maintaining semantic clues within the pre-trained backbone. We evaluate our {\em Singular Value Fine-tuning (SVF)} approach on various few-shot segmentation methods with different backbones. We achieve state-of-the-art results on both Pascal-5$^i$ and COCO-20$^i$ across 1-shot and 5-shot settings. Hopefully, this simple baseline will encourage researchers to rethink the role of backbone fine-tuning in few-shot settings. The source code and models will be available at https://github.com/syp2ysy/SVF.
연구 동기 및 목표
- 새로운 클래스에 대한 일반화를 개선하기 위해 소수 샷 분할에서 표준 백본 동결(paradigm)을 재고한다.
- 사전 학습된 신호를 손상시키지 않으면서 의미 표현을 조정하는 경량 미세조정 체계를 제안한다.
- 여러 백본 및 FSS 방법에 걸쳐 특이값을 미세조정하는 것이 더 나은 성능을 낳는다는 것을 보여준다.
제안 방법
- 사전 학습된 백본 가중치를 SVD(Singular Value Decomposition)로 세 행렬로 분해한다.
- U 및 V 구성요소를 고정하고 특이값 S만 미세조정한다(SVF).
- S를 의미 신호의 재가중으로 해석하여 특징 표현을 적응시키는 동안 의미 신호를 보존한다.
- S를 고정된 구성요소와 학습 가능한 구성요소의 곱(S = S_frozen · S_trainable)으로 표현하여 미세조정 메커니즘을 근거화한다.
- 합성곱 계층에 대해 SVF를 적용하여 실제 동작을 재구성한다: (i) 축소된 부분공간으로의 3x3 합성곱, (ii) S에 의한 스케일링, (iii) 다시 투영하기 위한 1x1 합성곱, 실질적으로 작고 매개변수 효율적인 미세조정 공간을 만든다.
- 저하를 피하기 위해 BatchNorm(BN) 파라미터를 동결하고 PFENet 및 BAM 베이스라인에서 전체 미세조정 및 레이어/합성곱 기반 미세조정과의 비교에서 SVF를 평가한다.
실험 결과
연구 질문
- RQ1SVF를 통해 백본 파라미터의 소수 하위집합을 미세조정하는 것이 소수 샷 분할에서 백본 동결보다 더 나은가?
- RQ2Pascal-5i 및 COCO-20i 전반에 걸친 1샷 및 5샷 작업에서 SVF가 일반화에 어떻게 영향을 미치는가?
- RQ3SVF에서 어느 백본 층과 부분공간(U, S, V)이 성능 향상에 가장 기여하는가?
주요 결과
- SVF는 PFENet, BAM 등의 다수 베이스라인과 백본(VGG-16, ResNet-50)에서 1샷 및 5샷 설정에 걸쳐 Pascal-5i 및 COCO-20i에서 최첨단 성능을 향상시킨다.
- 특이값 S만 미세조정하는 것이 전체 백본 미세조정이나 부분 레이어 미세조정과 비교하여 더 나은 일반화 및 과적합 회피를 보인다.
- S 부분공간(특히 3, 4 계층)을 미세조정하면 가장 큰 이득이 나오며, U 또는 V만 미세조정하면 성능이 악화될 수 있다.
- BN 계층은 SVF를 사용할 때 동결해야 안정성과 성능을 유지할 수 있다.
- SVF는 FSS 맥락에서 어댑터나 바이어스 튜닝과 같은 매개변수 효율적 튜닝 방법을 일관되게 능가한다.
- 시각적 분석은 SVF가 전경 신호에 더 큰 비중을 두고 노이즈가 많은 배경에 대한 의존을 줄임을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.