[논문 리뷰] Feature-Proxy Transformer for Few-Shot Segmentation
FPTrans은 온더플라이 프록시와 질의-지원 피처 간의 프롬팅 기반 상호작용을 활용하여 Few-shot 분할을 위한 일반 피처 추출기 + 선형 분류 헤드 프레임워크를 부활시키며, 복잡한 디코더 없이도 최첨단에 준하는 성능을 달성한다.
Few-shot segmentation (FSS) aims at performing semantic segmentation on novel classes given a few annotated support samples. With a rethink of recent advances, we find that the current FSS framework has deviated far from the supervised segmentation framework: Given the deep features, FSS methods typically use an intricate decoder to perform sophisticated pixel-wise matching, while the supervised segmentation methods use a simple linear classification head. Due to the intricacy of the decoder and its matching pipeline, it is not easy to follow such an FSS framework. This paper revives the straightforward framework of "feature extractor $+$ linear classification head" and proposes a novel Feature-Proxy Transformer (FPTrans) method, in which the "proxy" is the vector representing a semantic class in the linear classification head. FPTrans has two keypoints for learning discriminative features and representative proxies: 1) To better utilize the limited support samples, the feature extractor makes the query interact with the support features from the bottom to top layers using a novel prompting strategy. 2) FPTrans uses multiple local background proxies (instead of a single one) because the background is not homogeneous and may contain some novel foreground regions. These two keypoints are easily integrated into the vision transformer backbone with the prompting mechanism in the transformer. Given the learned features and proxies, FPTrans directly compares their cosine similarity for segmentation. Although the framework is straightforward, we show that FPTrans achieves competitive FSS accuracy on par with state-of-the-art decoder-based methods.
연구 동기 및 목표
- 감독 세분화와 일치하는 더 간단한 FSS 프레임워크를 제시한다(피처 추출기 + 선형 헤드).
- 제한된 지원 샘플로 효과적인 질의-지원 상호작용을 가능하게 하는 프롬팅 기반 메커니즘을 개발한다.
- 일부 로컬 배경 프록시를 도입하여 새로운 클래스에 대한 일반화 성능을 향상시킨다.
제안 방법
- 전경과 다수의 로컬 배경 프롬프트를 주입하기 위한 새로운 프롬팅 전략을 갖춘 비전 트랜스포머 백본을 사용한다.
- 분류 헤드를 위해 지원 이미지와 마스크로부터 즉시 프록시를 생성한다(피처 기반 및 프롬프트 기반).
- 효율적 크로스 어텐션과 상호작용을 가능하게 하기 위해 질의와 지원 간 프롬프트 토큰을 동기화한다(프롬프트 동기화).
- 트랜스포머를 통해 특징과 프록시를 추출한 다음, 픽셀 단위 코사인 유사도 기반 분류를 교차 엔트로피 및 페어와이즈 손실과 함께 수행한다.
- 피처 기반 프록시와 프롬프트 기반 프록시의 두 분류 손실 합과 페어와이즈 전경 특징 끌어당김 손실을 더해 학습한다.
실험 결과
연구 질문
- RQ1치밀하게 설계된 프록시와 프롬팅으로 일반 피처 추출기 + 선형 헤드 프레임워크가 디코더 기반 FSS 방법과 대등한 성능을 낼 수 있는가?
- RQ2다수의 로컬 배경 프록시가 FSS에서 새로운 클래스에 대한 일반화를 향상시키는가?
- RQ3프롬프트를 통한 질의-지원 상호작용이 정확도를 유지하면서 상호작용 복잡성을 감소시키는가?
주요 결과
- FPTrans는 데이터셋 및 백본 전반에 걸쳐 최첨단 디코더 기반 방법과 경쟁력 있는 FSS 정확도를 달성한다.
- 다수의 로컬 배경 프록시와 질의-지원 프롬팅을 사용하면 기본선 대비 일관된 이득을 얻고, 어블레이션에서 그 기여가 확인된다.
- PASCAL-5i 및 COCO-20i에서 ViT/DeiT 백본을 갖춘 FPTrans는 여러 강력한 베이스라인을 능가하고 도메인 시프트 상황에서도 현저한 향상을 보인다.
- 프롬프트 동기화는 크로스 어텐션 흐름에서 상호작용 복잡도를 O(N^2)에서 O(N)으로 줄이면서 효과적인 피처 및 프록시 학습을 가능하게 한다.
- 피처 기반 및 프롬프트 기반 프록시 분류와 페어와이즈 전경 특징 손실을 함께 학습하면 FSS 성능이 향상되며, 특히 지원 샘플이 적을 때 더 큰 이점이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.