QUICK REVIEW

[논문 리뷰] Conditional Convolutions for Instance Segmentation

Zhi Tian, Chunhua Shen|arXiv (Cornell University)|2020. 03. 12.

Advanced Neural Network Applications참고 문헌 44인용 수 26

한 줄 요약

이 논문은 기존의 ROI 기반 마스크 헤드를 대체하는 동적이고 인스턴스에 민감한 컨볼루션 네트워크를 사용하는 새로운 인스턴스 세그멘테이션 프레임워크인 CondInst를 제안한다. 각 인스턴스의 특징과 위치에 따라 필터 가중치를 조건부로 생성함으로써, CondInst는 Mask R-CNN보다 더 높은 정확도와 더 빠른 추론 성능을 달성하며, 더 긴 학습 스케줄이 필요 없이 1.2 AP 포인트 향상(35.9% 대비 35.5%)을 기록한다.

ABSTRACT

We propose a simple yet effective instance segmentation framework, termed CondInst (conditional convolutions for instance segmentation). Top-performing instance segmentation methods such as Mask R-CNN rely on ROI operations (typically ROIPool or ROIAlign) to obtain the final instance masks. In contrast, we propose to solve instance segmentation from a new perspective. Instead of using instance-wise ROIs as inputs to a network of fixed weights, we employ dynamic instance-aware networks, conditioned on instances. CondInst enjoys two advantages: 1) Instance segmentation is solved by a fully convolutional network, eliminating the need for ROI cropping and feature alignment. 2) Due to the much improved capacity of dynamically-generated conditional convolutions, the mask head can be very compact (e.g., 3 conv. layers, each having only 8 channels), leading to significantly faster inference. We demonstrate a simpler instance segmentation method that can achieve improved performance in both accuracy and inference speed. On the COCO dataset, we outperform a few recent methods including well-tuned Mask RCNN baselines, without longer training schedules needed. Code is available: https://github.com/aim-uofa/adet

연구 동기 및 목표

Mask R-CNN와 같은 ROI 기반 인스턴스 세그멘테이션 방법의 한계, 즉 자르기 및 정렬 작업에 의존하는 점을 해결하기 위해.
ROI 풀링 및 특징 정렬이 필요 없도록 하여 완전히 컨볼루션 기반의 인스턴스 세그멘테이션을 가능하게 하기 위해.
인스턴스별로 동적으로 생성된 컨볼루션 필터를 통해 마스크 헤드의 효율성과 성능을 향상시키기 위해.
기존 방법, 특히 잘 튜닝된 Mask R-CNN 베이스라인과 비교해 더 높은 정확도와 더 빠른 추론 성능를 달성하기 위해.
조건부 컨볼루션을 갖춘 컴act한 마스크 헤드가 더 큰 고정 가중치 헤드를 능가할 수 있음을 보여주기 위해.

제안 방법

각 인스턴스의 특징과 위치에 따라 동적으로 필터 가중치를 생성하는 인스턴스에 민감한 마스크 헤드를 사용하는 완전한 컨볼루션 기반 인스턴스 세그멘테이션 프레임워크를 제안한다.
인스턴스의 중심 영역과 상대 좌표를 기반으로 마스크 헤드 필터를 생성하는 컨트롤러 하위 네트워크를 활용한다.
각 인스턴스별로 동적으로 생성되는 필터 가중치를 갖는 조건부 컨볼루션을 도입함으로써 인스턴스에 특화된 특징 학습을 가능하게 한다.
공간적인 인덕티브 바이어스를 제공하기 위해 특징 맵에 상대 좌표를 추가함으로써, ROI 자르기 없이도 정밀한 국소화 성능을 향상시킨다.
전체 특징 맵에 직접 동적 마스크 헤드를 적용함으로써 ROIAlign 및 ROI 풀링을 제거한다.
매개변수와 계산량을 크게 줄이기 위해 단지 3개의 컨볼루션 레이어로 구성된 경량 마스크 헤드를 사용하며, 각 레이어는 8개의 필터를 갖는다.

실험 결과

연구 질문

RQ1완전한 컨볼루션 네트워크에서 인스턴스에 민감하고 동적 필터를 사용하면 ROI 기반 방법보다 인스턴스 세그멘테이션 성능을 뛰어넘을 수 있는가?
RQ2동적으로 생성된 필터를 갖는 컴팩트한 마스크 헤드가 더 큰 고정 가중치 헤드보다 더 높은 정확도를 달성할 수 있는가?
RQ3ROI 연산을 제거하면 마스크 품질을 손상시키지 않고 추론 속도를 향상시킬 수 있는가?
RQ4ROI 자르기 없이도 조건부 컨볼루션을 통해 유사한 외관을 가진 인스턴스(예: 여러 명의 사람)를 효과적으로 구분할 수 있는가?
RQ5제안된 방법이 정확도와 속도 모두에서 Mask R-CNN 및 TensorMask와 같은 최신 모델을 능가할 수 있는가?

주요 결과

COCO test-dev에서 CondInst는 35.9% AP를 달성하여, 더 긴 학습 스케줄이 필요 없이 잘 튜닝된 Mask R-CNN 베이스라인(35.5%)을 1.2 AP 포인트 초월한다.
3배 학습 스케줄과 ResNet-101 백본을 사용할 경우, CondInst는 40.1% AP를 기록하여 Mask R-CNN(38.8%)과 TensorMask(37.1%)를 모두 뛰어넘는다.
CondInst는 이미지당 49ms로 TensorMask(380ms)보다 약 8배 빠르며, 더 나은 또는 유사한 성능을 달성한다.
매우 컴팩트한 마스크 헤드(3개의 컨볼루션 레이어, 각각 8개의 필터)를 사용함으로써 상태최저 성능를 달성하면서 계산 비용을 줄였다.
보조 세그멘테이션 헤드를 사용함으로써 CondInst의 성능은 ResNet-50 기준 38.8% AP, ResNet-101 기준 40.1% AP로 향상되었으며, 추론 시간에 변화가 없었다.
박스 기반 NMS와 동일한 성능을 보이는 마스크 예측 기반 NMS를 통해, CondInst가 박스 검출이 필요 없이 완전히 제거될 수 있음을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.