[논문 리뷰] K-Net: Towards Unified Image Segmentation
K-Net은 학습 가능한 그룹 커널로 시맨틱, 인스턴스, 및 팬옵틱 분할을 하나로 통합하고, 이미지마다 동적으로 업데이트되며, bipartite 매칭을 통해 엔드-투-엔드로 학습되어 SOTA 단일 모델 결과를 달성하고 NMS- 및 박스 없이 작동한다.
Semantic, instance, and panoptic segmentations have been addressed using different and specialized frameworks despite their underlying connections. This paper presents a unified, simple, and effective framework for these essentially similar tasks. The framework, named K-Net, segments both instances and semantic categories consistently by a group of learnable kernels, where each kernel is responsible for generating a mask for either a potential instance or a stuff class. To remedy the difficulties of distinguishing various instances, we propose a kernel update strategy that enables each kernel dynamic and conditional on its meaningful group in the input image. K-Net can be trained in an end-to-end manner with bipartite matching, and its training and inference are naturally NMS-free and box-free. Without bells and whistles, K-Net surpasses all previous published state-of-the-art single-model results of panoptic segmentation on MS COCO test-dev split and semantic segmentation on ADE20K val split with 55.2% PQ and 54.3% mIoU, respectively. Its instance segmentation performance is also on par with Cascade Mask R-CNN on MS COCO with 60%-90% faster inference speeds. Code and models will be released at https://github.com/ZwwWayne/K-Net/.
연구 동기 및 목표
- 공통 커널 기반 프레임워크 하에 시맨틱, 인스턴스, 및 팬옵틱 분할의 통합 필요성을 제시한다.
- 가변적인 객체 인스턴스를 다루기 위한 동적이고 그룹 인지형 커널 업데이트 메커니즘을 제안한다.
- 박스나 NMS 없이 bipartite 매칭으로 엔드-투-엔드 학습을 통해 인스턴스 커널을 훈련한다.
- 표준 벤치마크에서 통합 커널 기반 접근이 팬옵틱, 인스턴스, 시맨틱 분할을 향상시킨다는 것을 보여준다.
제안 방법
- 세분화 타깃을 고정된 N개의 커널 세트로 표현하고, 각 커널은 잠재적 인스턴스 또는 시맨틱 클래스에 대한 하나의 마스크를 예측한다.
- 현재 예측으로부터 구성된 그룹 피처를 사용하여 커널을 형태 및 콘텐츠에 적응적으로 업데이트하는 커널 업데이트 헤드를 도입한다.
- 게이팅을 통한 적응적 피처-커널 상호작용을 적용하여 S 라운드에 걸쳐 커널과 마스크를 반복적으로 정교화한다.
- 커널 간 다중-헤드 어텐션을 사용하여 맥락적 상호작용을 가능케 하고 업데이트된 커널로부터 최종 마스크를 도출한다.
- 마스크 주도 엔드-투-엔드 헝가리안 매핑으로 인스턴스 커널을 학습한다(박스 없음, NMS 없음).
- 적절하게 인스턴스 및 시맨틱 커널을 결합하여 팬옵틱 또는 시맨틱 분할에도 동일한 커널 프레임워크를 적용한다.
실험 결과
연구 질문
- RQ1하나의 커널 기반 프레임워크에서 시맨틱, 인스턴스, 및 팬옵틱 분할을 해결할 수 있는가?
- RQ2다양한 모양과 규모의 인스턴스를 신뢰성 있게 분리하기 위해 커널을 내용에 대해 적응적으로 만들 수 있는가?
- RQ3박스나 NMS에 의존하지 않고 인스턴스 커널에 대해 엔드-투-엔드 학습과 헝가리안 매핑이 가능한가?
- RQ4K-Net을 사용할 때 COCO에서 팬옵틱/인스턴스 및 ADE20K에서 시맨틱 분할의 성능 향상은 무엇인가?
주요 결과
| 프레임워크 | 백본 | 박스-프리 | NMS-프리 | 에포크 | PQ | PQ 임계값 | PQ 스코어 |
|---|---|---|---|---|---|---|---|
| Panoptic-DeepLab | Xception-71 | ~1000 | 39.7 | 43.9 | 33.2 | ||
| Panoptic FPN | R50-FPN | 36 | 41.5 | 48.5 | 31.1 | ||
| SOLOv2 | R50-FPN | ✓ | 36 | 42.1 | 49.6 | 30.7 | |
| DETR | R50 | ✓ | 300+25 | 43.4 | 48.2 | 36.3 | |
| Unifying | R50-FPN | ~27 | 43.4 | 48.6 | 35.5 | ||
| Panoptic FCN | R50-FPN | 36 | 43.6 | 49.3 | 35.0 | ||
| K-Net | R50-FPN | ✓ | ✓ | 36 | 47.1 | 51.7 | 40.3 |
| K-Net | R101-FPN | ✓ | ✓ | 36 | 49.6 | 55.1 | 41.4 |
| R101-FPN-DCN | ✓ | ✓ | 36 | 48.3 | 54.0 | 39.7 | |
| Swin-L | ✓ | ✓ | 36 | 54.6 | 60.2 | 46.0 |
- SOTA 단일 모델 팬옵틱 분할을 COCO val에서 47.1 PQ(R50-FPN) 및 Swin-L에서 54.6 PQ로 달성하며 이전 방법을 능가한다.
- 백본 아키텍처와 통합 시 시맨틱 분할에서 ADE20K val에서 54.3 mIoU를 달성해 다양한 태스크 간의 이점이 강하다는 것을 보인다.
- 인스턴스 분할 결과는 Cascade Mask R-CNN과 경쟁적이면서도 박스 및 NMS 없이 작동하며, COCO에서 K-Net-N256이 19.8 FPS로 Cascade의 10.3 FPS보다 추론이 크게 빨라진다.
- 커널 업데이트 헤드의 그룹 피처 어셈블리와 적응적 게이팅이 AP를 크게 향상시키며(표 4는 기본 18.2에서 전체 구성요소로 34.7로 상승), 성능을 크게 높인다.
- 100개의 인스턴스 커널로도 COCO에서 강한 성능을 보여주며, 커널 업데이트의 라운드 수가 어느 정도 지나면 성능이 포화된다(~3회).
- K-Net은 더 적은 학습 에포크(36회)로도 여러 박스 기반 및 커널 기반 기준보다 우수한 성능을 달성할 수 있으며, modest한 계산으로 견고한 성능을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.