[논문 리뷰] SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding
SAM-CLIP은 재현을 통한 다중 작업 증류로 SAM과 CLIP을 단일 ViT 백본으로 합쳐 제로샷 분류, 인스턴스 분할 및 제로샷 시맨틱 분할에서 메모리 및 계산을 감소시킨 채로 성과를 달성한다.
The landscape of publicly available vision foundation models (VFMs), such as CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed with distinct capabilities stemming from their pre-training objectives. For instance, CLIP excels in semantic understanding, while SAM specializes in spatial understanding for segmentation. In this work, we introduce a simple recipe to efficiently merge VFMs into a unified model that absorbs their expertise. Our method integrates techniques of multi-task learning, continual learning, and distillation. Further, it demands significantly less computational cost compared to traditional multi-task training from scratch, and it only needs a small fraction of the pre-training datasets that were initially used to train individual models. By applying our method to SAM and CLIP, we obtain SAM-CLIP: a unified model that combines the capabilities of SAM and CLIP into a single vision transformer. Compared with deploying SAM and CLIP independently, our merged model, SAM-CLIP, reduces storage and compute costs for inference, making it well-suited for edge device applications. We show that SAM-CLIP not only retains the foundational strengths of SAM and CLIP, but also introduces synergistic functionalities, notably in zero-shot semantic segmentation, where SAM-CLIP establishes new state-of-the-art results on 5 benchmarks. It outperforms previous models that are specifically designed for this task by a large margin, including +6.8% and +5.9% mean IoU improvement on Pascal-VOC and COCO-Stuff datasets, respectively.
연구 동기 및 목표
- 시맨틱 이해와 공간 이해를 결합하기 위해 비전 기초 모델의 병합을 추진한다.
- 최소한의 망각으로 VFMs를 병합하기 위한 효율적이고 재연 기반의 증류 방법을 제안한다.
- SAM-CLIP를 단일 백본으로 시연하여 제로샷 분류, 인스턴스 분할 및 시맨틱 분할을 가능하게 한다.
- 병합된 모델이 더 풍부한 표현과 새로운 제로샷 능력을 산출한다는 것을 보여준다.
- 저장 공간 및 계산 필요성 감소를 통해 에지 디바이스 적합성을 평가한다.
제안 방법
- SAM을 기본 VFM으로 사용하고 CLIP을 다중 헤드 구조로 백본에 합친다.
- 두 단계 학습을 적용한다: CLIP 헤드의 헤드 프로빙, 그다음 재현 데이터를 이용한 다중 작업 증류.
- 재현 데이터에서 KL-유형 코사인 손실과 SAM 특화 증류 손실로 CLIP와 SAM 지식을 증류한다.
- 이미지 이외 모달 인코더를 고정하고 이미지 백본 및 헤드를 학습시키되 망각 방지를 위해 학습률을 감소시켜 학습시킨다.
- 두 데이터셋 재현 전략을 활용한다: CLIP 증류용 D_CLIP와 SAM 증류용 D_SAM, L_CLIP + lambda L_SAM의 공동 최적화를 수행한다.
- CLIP(저해상도)와 SAM(1024px) 학습을 정렬하기 위해 이중 해상도 전략과 해상도 적응을 도입한다.
- 단일 백본이 분류, 인스턴스 분할 및 시맨틱 분할을 지원하는 추론 파이프라인을 제시한다.
실험 결과
연구 질문
- RQ1두 가지 상이한 비전 기초 모델(SAM과 CLIP)을 하나의 백본으로 병합하되 치명적 망각 없이 가능할까?
- RQ2재현 기반 다중 작업 증류 접근 방식이 지식을 효과적으로 이전시키고 원래의 능력을 보존하는가?
- RQ3SAM-CLIP이 제로샷 시맨틱 분할을 가능하게 하고 다수의 벤치마크에서 과제별 모델을 능가하는가?
- RQ4병합된 모델이 SAM과 CLIP를 각각 배포하는 것에 비해 에지 디바이스에서 더 많은 저장 및 계산 효율을 제공하는가?
- RQ5병합된 모델에서 어떤 표현이 나타내며 그것이 다운스트림 작업을 어떻게 지원하는가?
주요 결과
- SAM-CLIP은 두 모델의 핵심 제로샷 능력을 최소한의 망각으로 보존한다.
- 병합된 모델은 기준 VFMs와 비교해 제로샷 분류 및 인스턴스 분할 성능이 경쟁력을 갖춘다.
- SAM-CLIP은 다섯 데이터셋에 걸쳐 제로샷 시맨틱 분할에서 최첨단 성능을 달성한다.
- 헤드 프로빙은 SAM-CLIP 표현이 SAM이나 CLIP 단독보다 시맨틱 및 공간 작업 모두에 대해 더 풍부하다는 것을 보여준다.
- 해상도 적응 학습은 CLIP 스타일 작업을 224/336/448px에서 가능하게 하고 SAM 작업은 1024px에서 작동하게 한다.
- CLIP과 SAM 헤드를 SAM-CLIP 내에서 구성하면 제로샷 분할 품질이 더 향상될 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.