[논문 리뷰] Intermediate Prototype Mining Transformer for Few-Shot Semantic Segmentation
지원의 결정성과 쿼리 적응성을 결합한 중간 프로토타입을 학습하는 중간 프로토타입 마이닝 트랜스포머(IPMT)를 도입하여, 쿼리 특징을 반복적으로 정제해 적은 예제에서의 의미 분할 성능을 향상시킵니다.
Few-shot semantic segmentation aims to segment the target objects in query under the condition of a few annotated support images. Most previous works strive to mine more effective category information from the support to match with the corresponding objects in query. However, they all ignored the category information gap between query and support images. If the objects in them show large intra-class diversity, forcibly migrating the category information from the support to the query is ineffective. To solve this problem, we are the first to introduce an intermediate prototype for mining both deterministic category information from the support and adaptive category knowledge from the query. Specifically, we design an Intermediate Prototype Mining Transformer (IPMT) to learn the prototype in an iterative way. In each IPMT layer, we propagate the object information in both support and query features to the prototype and then use it to activate the query feature map. By conducting this process iteratively, both the intermediate prototype and the query feature can be progressively improved. At last, the final query feature is used to yield precise segmentation prediction. Extensive experiments on both PASCAL-5i and COCO-20i datasets clearly verify the effectiveness of our IPMT and show that it outperforms previous state-of-the-art methods by a large margin. Code is available at https://github.com/LIUYUANWEI98/IPMT
연구 동기 및 목표
- Few-shot 의미 분할(FSS)에서 지원과 쿼리 간의 클래스 내 다양성 문제를 해결한다.
- 지원 이미지와 쿼리 이미지 간의 카테고리 정보 격차를 줄이기 위한 중간 프로토타입을 제안한다.
- 정확한 분할을 위해 중간 프로토타입과 쿼리 특징을 점진적으로 정제하는 반복적인 IPMT 프레임워크를 개발한다.
- PASCAL-5i 및 COCO-20i 벤치마크에서 최첨단 성능을 입증한다.
- 중간 프로토타입이 지원 및 쿼리 프로토타입 간의 클래스 내 거리를 줄이는 방법에 대한 통찰력을 제공한다.
제안 방법
- 레이어마다 두 단계로 구성된 Intermediate Prototype Mining(IPMT)를 정의한다: 중간 프로토타입 마이닝(IPM)과 쿼리 활성화(QA).
- IPM은 지원 및 쿼리 특징 모두에 마스크된 교차 주의를 적용하여, 지원 마스크와 쿼리 예측에 의해 안내된 중간 프로토타입 G를 학습한다.
- QA는 학습된 프로토타입 G를 이용해 쿼리 특징 맵 Fq를 연결(concatenation) 및 활성화 네트워크를 통해 활성화하고, 맥락 집합화를 위한 선택적 변형 가능 자기 주의(deformable self-attention)를 사용한다.
- 프로토타입 업데이트가 목표 영역에 집중되도록 마스크-주의 메커니즘을 활용하며, 실제 정답 지원 마스크 Ms와 쿼리 예측 마스크 Pq를 이용한다.
- G에서 생성된 마스크를 지원 및 쿼리 이미지에 대해 감독하는 Duplex Segmentation Loss(Ldsl)로 학습한다.
- 최종 분할 성능 향상을 위해 G, Fq, Pq(Gl, Fql, Pql)를 점진적으로 정제하는 IPMT 계층 L IPMT를 사용하는 반복 도식을 채택한다.
실험 결과
연구 질문
- RQ1FSS에서 지원과 쿼리 간 정보 격차를 완화하는 중간 프로토타입이 가능할까?
- RQ2중간 프로토타입과 쿼리 특징의 반복적 정제가 분할 성능을 향상시키는가?
- RQ3결정적 지원 정보와 적응적 쿼리 지식을 결합하는 것이 프로토타입 품질과 분할 정확도에 어떤 영향을 미치는가?
- RQ4DSL과 QA 구성 요소가 IPMT의 전체 성능에 미치는 영향은 무엇인가?
- RQ5IPMT가 표준 FSS 벤치마크(PASCAL-5i 및 COCO-20i)에서 기존 최첨단 방법과 비교해 어떤 성능을 보이는가?
주요 결과
- IPMT는 ResNet 백본을 사용한 1-shot 및 5-shot 설정에서 PASCAL-5i와 COCO-20i에서 최첨단 방법을 능가한다.
- 지원 및 쿼리 맥 context에서 도출된 중간 프로토타입 G는 쿼리 프로토타입에 더 가깝고 지원 프로토타입보다 클래스 내 다양성을 감소시킨다.
- 반복적 IPMT 계층은 프로토타입 품질과 분할 결과를 점진적으로 향상시키며, 다섯 계층에서 상당한 이점을 보인다.
- Duplex Segmentation Loss(DSL)와 Query Activation(QA)은 성능에 크게 기여하며, 이를 제거하면 성능이 저하된다.
- 변형과 반복으로 IPM에서 지원 및 쿼리 정보를 함께 활용하는 방식과 반복의 이점이 설계 선택을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.