Skip to main content
QUICK REVIEW

[논문 리뷰] K-Net: Towards Unified Image Segmentation

Wenwei Zhang, Jiangmiao Pang|arXiv (Cornell University)|2021. 06. 28.
Advanced Neural Network Applications참고 문헌 66인용 수 197
한 줄 요약

K-Net은 학습 가능한 그룹 커널로 시맨틱, 인스턴스, 및 팬옵틱 분할을 하나로 통합하고, 이미지마다 동적으로 업데이트되며, bipartite 매칭을 통해 엔드-투-엔드로 학습되어 SOTA 단일 모델 결과를 달성하고 NMS- 및 박스 없이 작동한다.

ABSTRACT

Semantic, instance, and panoptic segmentations have been addressed using different and specialized frameworks despite their underlying connections. This paper presents a unified, simple, and effective framework for these essentially similar tasks. The framework, named K-Net, segments both instances and semantic categories consistently by a group of learnable kernels, where each kernel is responsible for generating a mask for either a potential instance or a stuff class. To remedy the difficulties of distinguishing various instances, we propose a kernel update strategy that enables each kernel dynamic and conditional on its meaningful group in the input image. K-Net can be trained in an end-to-end manner with bipartite matching, and its training and inference are naturally NMS-free and box-free. Without bells and whistles, K-Net surpasses all previous published state-of-the-art single-model results of panoptic segmentation on MS COCO test-dev split and semantic segmentation on ADE20K val split with 55.2% PQ and 54.3% mIoU, respectively. Its instance segmentation performance is also on par with Cascade Mask R-CNN on MS COCO with 60%-90% faster inference speeds. Code and models will be released at https://github.com/ZwwWayne/K-Net/.

연구 동기 및 목표

  • 공통 커널 기반 프레임워크 하에 시맨틱, 인스턴스, 및 팬옵틱 분할의 통합 필요성을 제시한다.
  • 가변적인 객체 인스턴스를 다루기 위한 동적이고 그룹 인지형 커널 업데이트 메커니즘을 제안한다.
  • 박스나 NMS 없이 bipartite 매칭으로 엔드-투-엔드 학습을 통해 인스턴스 커널을 훈련한다.
  • 표준 벤치마크에서 통합 커널 기반 접근이 팬옵틱, 인스턴스, 시맨틱 분할을 향상시킨다는 것을 보여준다.

제안 방법

  • 세분화 타깃을 고정된 N개의 커널 세트로 표현하고, 각 커널은 잠재적 인스턴스 또는 시맨틱 클래스에 대한 하나의 마스크를 예측한다.
  • 현재 예측으로부터 구성된 그룹 피처를 사용하여 커널을 형태 및 콘텐츠에 적응적으로 업데이트하는 커널 업데이트 헤드를 도입한다.
  • 게이팅을 통한 적응적 피처-커널 상호작용을 적용하여 S 라운드에 걸쳐 커널과 마스크를 반복적으로 정교화한다.
  • 커널 간 다중-헤드 어텐션을 사용하여 맥락적 상호작용을 가능케 하고 업데이트된 커널로부터 최종 마스크를 도출한다.
  • 마스크 주도 엔드-투-엔드 헝가리안 매핑으로 인스턴스 커널을 학습한다(박스 없음, NMS 없음).
  • 적절하게 인스턴스 및 시맨틱 커널을 결합하여 팬옵틱 또는 시맨틱 분할에도 동일한 커널 프레임워크를 적용한다.

실험 결과

연구 질문

  • RQ1하나의 커널 기반 프레임워크에서 시맨틱, 인스턴스, 및 팬옵틱 분할을 해결할 수 있는가?
  • RQ2다양한 모양과 규모의 인스턴스를 신뢰성 있게 분리하기 위해 커널을 내용에 대해 적응적으로 만들 수 있는가?
  • RQ3박스나 NMS에 의존하지 않고 인스턴스 커널에 대해 엔드-투-엔드 학습과 헝가리안 매핑이 가능한가?
  • RQ4K-Net을 사용할 때 COCO에서 팬옵틱/인스턴스 및 ADE20K에서 시맨틱 분할의 성능 향상은 무엇인가?

주요 결과

프레임워크백본박스-프리NMS-프리에포크PQPQ 임계값PQ 스코어
Panoptic-DeepLabXception-71~100039.743.933.2
Panoptic FPNR50-FPN3641.548.531.1
SOLOv2R50-FPN3642.149.630.7
DETRR50300+2543.448.236.3
UnifyingR50-FPN~2743.448.635.5
Panoptic FCNR50-FPN3643.649.335.0
K-NetR50-FPN3647.151.740.3
K-NetR101-FPN3649.655.141.4
R101-FPN-DCN3648.354.039.7
Swin-L3654.660.246.0
  • SOTA 단일 모델 팬옵틱 분할을 COCO val에서 47.1 PQ(R50-FPN) 및 Swin-L에서 54.6 PQ로 달성하며 이전 방법을 능가한다.
  • 백본 아키텍처와 통합 시 시맨틱 분할에서 ADE20K val에서 54.3 mIoU를 달성해 다양한 태스크 간의 이점이 강하다는 것을 보인다.
  • 인스턴스 분할 결과는 Cascade Mask R-CNN과 경쟁적이면서도 박스 및 NMS 없이 작동하며, COCO에서 K-Net-N256이 19.8 FPS로 Cascade의 10.3 FPS보다 추론이 크게 빨라진다.
  • 커널 업데이트 헤드의 그룹 피처 어셈블리와 적응적 게이팅이 AP를 크게 향상시키며(표 4는 기본 18.2에서 전체 구성요소로 34.7로 상승), 성능을 크게 높인다.
  • 100개의 인스턴스 커널로도 COCO에서 강한 성능을 보여주며, 커널 업데이트의 라운드 수가 어느 정도 지나면 성능이 포화된다(~3회).
  • K-Net은 더 적은 학습 에포크(36회)로도 여러 박스 기반 및 커널 기반 기준보다 우수한 성능을 달성할 수 있으며, modest한 계산으로 견고한 성능을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.