QUICK REVIEW

[논문 리뷰] K-Net: Towards Unified Image Segmentation

Wenwei Zhang, Jiangmiao Pang|arXiv (Cornell University)|2021. 06. 28.

Advanced Neural Network Applications참고 문헌 66인용 수 197

한 줄 요약

K-Net은 학습 가능한 그룹 커널로 시맨틱, 인스턴스, 및 팬옵틱 분할을 하나로 통합하고, 이미지마다 동적으로 업데이트되며, bipartite 매칭을 통해 엔드-투-엔드로 학습되어 SOTA 단일 모델 결과를 달성하고 NMS- 및 박스 없이 작동한다.

ABSTRACT

Semantic, instance, and panoptic segmentations have been addressed using different and specialized frameworks despite their underlying connections. This paper presents a unified, simple, and effective framework for these essentially similar tasks. The framework, named K-Net, segments both instances and semantic categories consistently by a group of learnable kernels, where each kernel is responsible for generating a mask for either a potential instance or a stuff class. To remedy the difficulties of distinguishing various instances, we propose a kernel update strategy that enables each kernel dynamic and conditional on its meaningful group in the input image. K-Net can be trained in an end-to-end manner with bipartite matching, and its training and inference are naturally NMS-free and box-free. Without bells and whistles, K-Net surpasses all previous published state-of-the-art single-model results of panoptic segmentation on MS COCO test-dev split and semantic segmentation on ADE20K val split with 55.2% PQ and 54.3% mIoU, respectively. Its instance segmentation performance is also on par with Cascade Mask R-CNN on MS COCO with 60%-90% faster inference speeds. Code and models will be released at https://github.com/ZwwWayne/K-Net/.

연구 동기 및 목표

공통 커널 기반 프레임워크 하에 시맨틱, 인스턴스, 및 팬옵틱 분할의 통합 필요성을 제시한다.
가변적인 객체 인스턴스를 다루기 위한 동적이고 그룹 인지형 커널 업데이트 메커니즘을 제안한다.
박스나 NMS 없이 bipartite 매칭으로 엔드-투-엔드 학습을 통해 인스턴스 커널을 훈련한다.
표준 벤치마크에서 통합 커널 기반 접근이 팬옵틱, 인스턴스, 시맨틱 분할을 향상시킨다는 것을 보여준다.

제안 방법

세분화 타깃을 고정된 N개의 커널 세트로 표현하고, 각 커널은 잠재적 인스턴스 또는 시맨틱 클래스에 대한 하나의 마스크를 예측한다.
현재 예측으로부터 구성된 그룹 피처를 사용하여 커널을 형태 및 콘텐츠에 적응적으로 업데이트하는 커널 업데이트 헤드를 도입한다.
게이팅을 통한 적응적 피처-커널 상호작용을 적용하여 S 라운드에 걸쳐 커널과 마스크를 반복적으로 정교화한다.
커널 간 다중-헤드 어텐션을 사용하여 맥락적 상호작용을 가능케 하고 업데이트된 커널로부터 최종 마스크를 도출한다.
마스크 주도 엔드-투-엔드 헝가리안 매핑으로 인스턴스 커널을 학습한다(박스 없음, NMS 없음).
적절하게 인스턴스 및 시맨틱 커널을 결합하여 팬옵틱 또는 시맨틱 분할에도 동일한 커널 프레임워크를 적용한다.

실험 결과

연구 질문

RQ1하나의 커널 기반 프레임워크에서 시맨틱, 인스턴스, 및 팬옵틱 분할을 해결할 수 있는가?
RQ2다양한 모양과 규모의 인스턴스를 신뢰성 있게 분리하기 위해 커널을 내용에 대해 적응적으로 만들 수 있는가?
RQ3박스나 NMS에 의존하지 않고 인스턴스 커널에 대해 엔드-투-엔드 학습과 헝가리안 매핑이 가능한가?
RQ4K-Net을 사용할 때 COCO에서 팬옵틱/인스턴스 및 ADE20K에서 시맨틱 분할의 성능 향상은 무엇인가?

주요 결과

프레임워크	백본	박스-프리	NMS-프리	에포크	PQ	PQ 임계값	PQ 스코어
Panoptic-DeepLab	Xception-71			~1000	39.7	43.9	33.2
Panoptic FPN	R50-FPN			36	41.5	48.5	31.1
SOLOv2	R50-FPN	✓		36	42.1	49.6	30.7
DETR	R50		✓	300+25	43.4	48.2	36.3
Unifying	R50-FPN			~27	43.4	48.6	35.5
Panoptic FCN	R50-FPN			36	43.6	49.3	35.0
K-Net	R50-FPN	✓	✓	36	47.1	51.7	40.3
K-Net	R101-FPN	✓	✓	36	49.6	55.1	41.4
R101-FPN-DCN	✓	✓	36	48.3	54.0	39.7
Swin-L	✓	✓	36	54.6	60.2	46.0

SOTA 단일 모델 팬옵틱 분할을 COCO val에서 47.1 PQ(R50-FPN) 및 Swin-L에서 54.6 PQ로 달성하며 이전 방법을 능가한다.
백본 아키텍처와 통합 시 시맨틱 분할에서 ADE20K val에서 54.3 mIoU를 달성해 다양한 태스크 간의 이점이 강하다는 것을 보인다.
인스턴스 분할 결과는 Cascade Mask R-CNN과 경쟁적이면서도 박스 및 NMS 없이 작동하며, COCO에서 K-Net-N256이 19.8 FPS로 Cascade의 10.3 FPS보다 추론이 크게 빨라진다.
커널 업데이트 헤드의 그룹 피처 어셈블리와 적응적 게이팅이 AP를 크게 향상시키며(표 4는 기본 18.2에서 전체 구성요소로 34.7로 상승), 성능을 크게 높인다.
100개의 인스턴스 커널로도 COCO에서 강한 성능을 보여주며, 커널 업데이트의 라운드 수가 어느 정도 지나면 성능이 포화된다(~3회).
K-Net은 더 적은 학습 에포크(36회)로도 여러 박스 기반 및 커널 기반 기준보다 우수한 성능을 달성할 수 있으며, modest한 계산으로 견고한 성능을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.