[논문 리뷰] Mask R-CNN
Mask R-CNN은 Faster R-CNN에 병렬 마스크 예측 분기를 확장하여 COCO에서 단일 모델 인스턴스 분할의 최첨단 성능과 탐지 및 핵심점 작업에서 강력한 결과를 달성하며, RoIAlign 및 클래스별 마스크 디커플링의 도움을 받습니다.
We present a conceptually simple, flexible, and general framework for object instance segmentation. Our approach efficiently detects objects in an image while simultaneously generating a high-quality segmentation mask for each instance. The method, called Mask R-CNN, extends Faster R-CNN by adding a branch for predicting an object mask in parallel with the existing branch for bounding box recognition. Mask R-CNN is simple to train and adds only a small overhead to Faster R-CNN, running at 5 fps. Moreover, Mask R-CNN is easy to generalize to other tasks, e.g., allowing us to estimate human poses in the same framework. We show top results in all three tracks of the COCO suite of challenges, including instance segmentation, bounding-box object detection, and person keypoint detection. Without bells and whistles, Mask R-CNN outperforms all existing, single-model entries on every task, including the COCO 2016 challenge winners. We hope our simple and effective approach will serve as a solid baseline and help ease future research in instance-level recognition. Code has been made available at: https://github.com/facebookresearch/Detectron
연구 동기 및 목표
- 객체 감지와 인스턴스 분할을 동시에 수행하기 위한 통합적이고 단순한 프레임워크를 개발한다.
- RoIs에 대한 픽셀-대-픽셀 정렬을 개선하여 정확한 마스크 예측을 가능하게 한다.
- 마스크 예측을 분류로부터 독립시켜 클래스별 마스크 출력을 가능하게 한다.
- Mask R-CNN을 COCO 작업들(인스턴스 분할, 경계 상자 탐지, 그리고 핵심점 탐지)에 걸쳐 평가한다.
- 다양한 백본 아키텍처에서 학습/추론 효율성과 프레임워크의 다재다능함을 입증한다.
제안 방법
- RoI마다 병렬 마스크 예측 분기를 Faster R-CNN에 확장한다.
- RoIPool로 인한 RoI 비정렬 문제를 양자화 없이 양선형 보간으로 제거하기 위해 RoIAlign을 도입한다.
- RoI당 K개의 이진 마스크를 예측하고, 하나의 클래스당 마스크를 사용하며, 마스크 분기에 픽셀 단위 시그모이드와 이진 교차 엔트로피 손실(L_mask)을 사용한다.
- 공간적 배치를 보존하기 위해 벡터로 축소하지 않고 m x m 마스크를 유지하는 FCN 기반 마스크 헤드를 사용한다.
- 다중 작업 손실 L = L_cls + L_box + L_mask로 학습하며 가능하면 특징을 공유한다.
- Mask R-CNN을 ResNet-50/101, FPN 및 (선택적으로) ResNeXt와 같은 백본으로 구성하고 COCO에서 평가한다.]
실험 결과
연구 질문
- RQ1Faster R-CNN에 병렬 마스크 분기를 추가하는 것이 탐지 성능을 희생하지 않으면서 정확한 인스턴스 분할을 가능하게 하는가?
- RQ2RoIAlign은 인스턴스 분할 맥락에서 RoIPool에 비해 마스크 품질을 어떻게 개선하는가?
- RQ3클래스 예측으로부터 마스크 예측을 분리(클래스별 이진 마스크)하는 것이 인스턴스 분할 정확도에 유익한가?
- RQ4다양한 백본(ResNet, FPN, ResNeXt)이 Mask R-CNN 내에서 마스크, 박스, 키포인트 성능에 어떤 영향을 주는가?
- RQ5Mask R-CNN을 인간 자세 추정과 같은 다른 작업으로 확장하면서도 속도를 유지할 수 있는가?
주요 결과
| backbone | AP | AP 50 | AP 75 | AP S | AP M | AP L |
|---|---|---|---|---|---|---|
| MNC [10] ResNet-101-C4 | 24.6 | 44.3 | 24.8 | 4.7 | 25.9 | 43.6 |
| FCIS [26] +OHEM ResNet-101-C5-dilated | 29.2 | 49.5 | - | 7.1 | 31.3 | 50.0 |
| FCIS+++ [26] +OHEM ResNet-101-C5-dilated | 33.6 | 54.5 | - | - | - | - |
| Mask R-CNN ResNet-101-C4 | 33.1 | 54.9 | 34.8 | 12.1 | 35.6 | 51.1 |
| Mask R-CNN ResNet-101-FPN | 35.7 | 58.0 | 37.8 | 15.5 | 38.1 | 52.4 |
| Mask R-CNN ResNeXt-101-FPN | 37.1 | 60.0 | 39.4 | 16.9 | 39.9 | 53.5 |
- Mask R-CNN with ResNet-101-FPN achieves 35.7 mask AP on COCO test-dev, outperforming previous single-model methods.
- RoIAlign improves mask AP by about 3 points (and AP 75 by about 5 points) over RoIPool, with large gains at higher IoU.
- Decoupling mask and class prediction by using independent class-specific masks (binary sigmoid) yields +5.5 AP over a multinomial softmax approach.
- Backbone choices significantly affect performance; deeper networks plus FPN and ResNeXt yield notable gains (e.g., ResNeXt-101-FPN improves mask AP to 37.1).
- Mask R-CNN also improves bounding-box detection when used with the same backbone, and the gap between box and mask AP is reduced (e.g., 2.7 points in some configurations).
- Inference with feature sharing (RPN and Mask R-CNN) runs around 195 ms per image on a Tesla M40, and training on COCO takes 32–44 hours on 8 GPUs; multi-task training provides strong gains across tasks.
- The framework generalizes to human pose estimation by treating keypoints as one-hot masks, achieving competitive AP on COCO keypoint tasks.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.