[논문 리뷰] Conditional Convolutions for Instance Segmentation
이 논문은 기존의 ROI 기반 마스크 헤드를 대체하는 동적이고 인스턴스에 민감한 컨볼루션 네트워크를 사용하는 새로운 인스턴스 세그멘테이션 프레임워크인 CondInst를 제안한다. 각 인스턴스의 특징과 위치에 따라 필터 가중치를 조건부로 생성함으로써, CondInst는 Mask R-CNN보다 더 높은 정확도와 더 빠른 추론 성능을 달성하며, 더 긴 학습 스케줄이 필요 없이 1.2 AP 포인트 향상(35.9% 대비 35.5%)을 기록한다.
We propose a simple yet effective instance segmentation framework, termed CondInst (conditional convolutions for instance segmentation). Top-performing instance segmentation methods such as Mask R-CNN rely on ROI operations (typically ROIPool or ROIAlign) to obtain the final instance masks. In contrast, we propose to solve instance segmentation from a new perspective. Instead of using instance-wise ROIs as inputs to a network of fixed weights, we employ dynamic instance-aware networks, conditioned on instances. CondInst enjoys two advantages: 1) Instance segmentation is solved by a fully convolutional network, eliminating the need for ROI cropping and feature alignment. 2) Due to the much improved capacity of dynamically-generated conditional convolutions, the mask head can be very compact (e.g., 3 conv. layers, each having only 8 channels), leading to significantly faster inference. We demonstrate a simpler instance segmentation method that can achieve improved performance in both accuracy and inference speed. On the COCO dataset, we outperform a few recent methods including well-tuned Mask RCNN baselines, without longer training schedules needed. Code is available: https://github.com/aim-uofa/adet
연구 동기 및 목표
- Mask R-CNN와 같은 ROI 기반 인스턴스 세그멘테이션 방법의 한계, 즉 자르기 및 정렬 작업에 의존하는 점을 해결하기 위해.
- ROI 풀링 및 특징 정렬이 필요 없도록 하여 완전히 컨볼루션 기반의 인스턴스 세그멘테이션을 가능하게 하기 위해.
- 인스턴스별로 동적으로 생성된 컨볼루션 필터를 통해 마스크 헤드의 효율성과 성능을 향상시키기 위해.
- 기존 방법, 특히 잘 튜닝된 Mask R-CNN 베이스라인과 비교해 더 높은 정확도와 더 빠른 추론 성능를 달성하기 위해.
- 조건부 컨볼루션을 갖춘 컴act한 마스크 헤드가 더 큰 고정 가중치 헤드를 능가할 수 있음을 보여주기 위해.
제안 방법
- 각 인스턴스의 특징과 위치에 따라 동적으로 필터 가중치를 생성하는 인스턴스에 민감한 마스크 헤드를 사용하는 완전한 컨볼루션 기반 인스턴스 세그멘테이션 프레임워크를 제안한다.
- 인스턴스의 중심 영역과 상대 좌표를 기반으로 마스크 헤드 필터를 생성하는 컨트롤러 하위 네트워크를 활용한다.
- 각 인스턴스별로 동적으로 생성되는 필터 가중치를 갖는 조건부 컨볼루션을 도입함으로써 인스턴스에 특화된 특징 학습을 가능하게 한다.
- 공간적인 인덕티브 바이어스를 제공하기 위해 특징 맵에 상대 좌표를 추가함으로써, ROI 자르기 없이도 정밀한 국소화 성능을 향상시킨다.
- 전체 특징 맵에 직접 동적 마스크 헤드를 적용함으로써 ROIAlign 및 ROI 풀링을 제거한다.
- 매개변수와 계산량을 크게 줄이기 위해 단지 3개의 컨볼루션 레이어로 구성된 경량 마스크 헤드를 사용하며, 각 레이어는 8개의 필터를 갖는다.
실험 결과
연구 질문
- RQ1완전한 컨볼루션 네트워크에서 인스턴스에 민감하고 동적 필터를 사용하면 ROI 기반 방법보다 인스턴스 세그멘테이션 성능을 뛰어넘을 수 있는가?
- RQ2동적으로 생성된 필터를 갖는 컴팩트한 마스크 헤드가 더 큰 고정 가중치 헤드보다 더 높은 정확도를 달성할 수 있는가?
- RQ3ROI 연산을 제거하면 마스크 품질을 손상시키지 않고 추론 속도를 향상시킬 수 있는가?
- RQ4ROI 자르기 없이도 조건부 컨볼루션을 통해 유사한 외관을 가진 인스턴스(예: 여러 명의 사람)를 효과적으로 구분할 수 있는가?
- RQ5제안된 방법이 정확도와 속도 모두에서 Mask R-CNN 및 TensorMask와 같은 최신 모델을 능가할 수 있는가?
주요 결과
- COCO test-dev에서 CondInst는 35.9% AP를 달성하여, 더 긴 학습 스케줄이 필요 없이 잘 튜닝된 Mask R-CNN 베이스라인(35.5%)을 1.2 AP 포인트 초월한다.
- 3배 학습 스케줄과 ResNet-101 백본을 사용할 경우, CondInst는 40.1% AP를 기록하여 Mask R-CNN(38.8%)과 TensorMask(37.1%)를 모두 뛰어넘는다.
- CondInst는 이미지당 49ms로 TensorMask(380ms)보다 약 8배 빠르며, 더 나은 또는 유사한 성능을 달성한다.
- 매우 컴팩트한 마스크 헤드(3개의 컨볼루션 레이어, 각각 8개의 필터)를 사용함으로써 상태최저 성능를 달성하면서 계산 비용을 줄였다.
- 보조 세그멘테이션 헤드를 사용함으로써 CondInst의 성능은 ResNet-50 기준 38.8% AP, ResNet-101 기준 40.1% AP로 향상되었으며, 추론 시간에 변화가 없었다.
- 박스 기반 NMS와 동일한 성능을 보이는 마스크 예측 기반 NMS를 통해, CondInst가 박스 검출이 필요 없이 완전히 제거될 수 있음을 확인했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.