[논문 리뷰] Personalize Segment Anything Model with One Shot
PerSAM은 양-음 위치 우선정보와 타깃 시맨틱스를 활용하여 SAM의 학습 없이 한 샷으로 개인화를 제공합니다. PerSAM-F는 두 개의 학습 가능한 가중치를 포함한 스케일 인식형 미세 조정을 추가하여 분할 성능을 향상시키고, 개인화된 객체 분할에서 최첨단 결과를 달성하며 DreamBooth를 지원합니다.
Driven by large-data pre-training, Segment Anything Model (SAM) has been demonstrated as a powerful and promptable framework, revolutionizing the segmentation models. Despite the generality, customizing SAM for specific visual concepts without man-powered prompting is under explored, e.g., automatically segmenting your pet dog in different images. In this paper, we propose a training-free Personalization approach for SAM, termed as PerSAM. Given only a single image with a reference mask, PerSAM first localizes the target concept by a location prior, and segments it within other images or videos via three techniques: target-guided attention, target-semantic prompting, and cascaded post-refinement. In this way, we effectively adapt SAM for private use without any training. To further alleviate the mask ambiguity, we present an efficient one-shot fine-tuning variant, PerSAM-F. Freezing the entire SAM, we introduce two learnable weights for multi-scale masks, only training 2 parameters within 10 seconds for improved performance. To demonstrate our efficacy, we construct a new segmentation dataset, PerSeg, for personalized evaluation, and test our methods on video object segmentation with competitive performance. Besides, our approach can also enhance DreamBooth to personalize Stable Diffusion for text-to-image generation, which discards the background disturbance for better target appearance learning. Code is released at https://github.com/ZrrSkywalker/Personalize-SAM
연구 동기 및 목표
- 사용자가 지정한 시각적 개념의 개인화를 매뉴얼 프롬팅 없이 촉진합니다.
- SAM에 고수준 대상 시맨틱스를 주입하기 위한 학습 없는 메커니즘을 개발하여 개인화된 마스크를 제공합니다.
- 마스크 스케일의 모호성을 해결하기 위해 경량의 스케일 인식형 미세 조정 변형(PerSAM-F)을 도입합니다.
- PerSeg 데이터세트를 만들어 개인화된 객체 분할을 평가합니다.
- 일-shot 비디오/시맨틱/부분 분할에 응용 가능성을 보이고 개인화 이미지 합성용 DreamBooth를 돕습니다.
제안 방법
- 참조 이미지의 특징과 테스트 이미지의 특징을 사용하여 테스트 이미지에서 대상에 대한 위치 신뢰도 맵을 계산합니다.
- 신뢰도 맵에서 양-음 위치 우선 정보를 추출하여 SAM을 프롬팅합니다.
- 위치 맵을 통해 모든 크로스-어텐션 레이어를 전경 영역으로 편향시키는 Target-guided Attention을 적용합니다.
- 글로벌 대상 임베딩을 모든 디코더 입력 토큰에 추가하여 Target-semantic Prompting을 적용합니다.
- 경량 디코더 프롬프트를 활용한 계단식 포스트-리파인먼트를 수행하여 마스크 품질을 점진적으로 개선합니다.
- PerSAM-F의 경우, SAM을 동결하고 세 가지 스케일의 SAM 출력을 결합해 최종 스케일 인식 마스크를 생성하기 위해 두 개의 마스크 가중치를 학습합니다(두 개의 학습 가능한 매개변수, A100에서 10초).
- 선택적으로 PerSAM을 사용하여 확산 모델 미세 조정 과정에서 배경 영역을 마스킹하여 DreamBooth를 개선합니다.
실험 결과
연구 질문
- RQ1SAM을 단 하나의 참조 이미지와 대략적인 마스크만으로 특정 객체에 맞춤화할 수 있을까?
- RQ2 retraining 없이도 고수준 대상 시맨틱스를 SAM에 효율적으로 주입하는 방법은 무엇인가?
- RQ3한 샷 데이터만 사용할 때도 스케일 인식형 미세 조정 전략이 분할을 향상시키는가?
- RQ4PerSAM이 배경 간섭을 완화하여 개인화된 텍스트-이미지 합성(DreamBooth)을 더 잘 촉진할 수 있는가?
주요 결과
| 방법 | mIoU | bIoU | 매개변수 |
|---|---|---|---|
| PerSAM | 89.3 | 71.7 | 0 |
| PerSAM-F | 95.3 | 77.9 | 2 |
| VP | 65.9 | 25.5 | 383M |
| SEEM* | 87.1 | 55.7 | 341M |
| SegGPT* | 94.3 | 76.5 | 354M |
- PerSAM은 PerSeg에서 여러 베 baseline 대비 개인화된 객체 분할 성능을 크게 향상시키고, 학습 없이도 프롬프트 대비 상당한 이득을 제공합니다.
- PerSAM-F는 2개의 학습 가능한 매개변수만으로도 두 가지 스케일의 SAM 출력을 결합해 최종 스케일 인식 마스크를 만들어 PerSeg에서 최상의 전반적 성능(mIoU 95.3, bIoU 77.9)을 달성합니다.
- PerSAM은 PerSeg 벤치마크에서 VP, Painter, SEEM, SegGPT와 같은 학습 없는 경쟁자들을 능가합니다.
- 2단계 포스트-리파인먼트와 Target-guided Attention은 성능 향상에 현저하게 기여하며(리파인먼트만으로도 +11.4% mIoU까지 가능).
- 스케일 인식형 미세 조정(PerSAM-F)은 스케일 가중치를 학습해 다른 매개변수 효율 방법들(Prompt, Tuning, Adapter, LoRA)보다 강력한 개선을 제공합니다.
- PerSAM-지원 DreamBooth는 전경 영역에 학습을 집중시켜 개인화된 텍스트-이미지 합성의 품질을 높입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.