[論文レビュー] Mask R-CNN
Mask R-CNNはFaster R-CNNに並列のマスク予測ブランチを追加し、COCOで単一モデルのインスタンスセグメンテーションの最先端を達成、RoIAlignとクラスごとのマスクのデカップリングに支えられ、検出とキーポイントタスクでも高い成果を示す。
We present a conceptually simple, flexible, and general framework for object instance segmentation. Our approach efficiently detects objects in an image while simultaneously generating a high-quality segmentation mask for each instance. The method, called Mask R-CNN, extends Faster R-CNN by adding a branch for predicting an object mask in parallel with the existing branch for bounding box recognition. Mask R-CNN is simple to train and adds only a small overhead to Faster R-CNN, running at 5 fps. Moreover, Mask R-CNN is easy to generalize to other tasks, e.g., allowing us to estimate human poses in the same framework. We show top results in all three tracks of the COCO suite of challenges, including instance segmentation, bounding-box object detection, and person keypoint detection. Without bells and whistles, Mask R-CNN outperforms all existing, single-model entries on every task, including the COCO 2016 challenge winners. We hope our simple and effective approach will serve as a solid baseline and help ease future research in instance-level recognition. Code has been made available at: https://github.com/facebookresearch/Detectron
研究の動機と目的
- 同時に物体検出とインスタンスセグメンテーションを実現する統一的で単純なフレームワークの開発。
- RoIsのピクセル対ピクセルの整列を改善して正確なマスク予測を可能にする。
- マスク予測を分類からデカップリングし、クラスごとのマスク出力を可能にする。
- Mask R-CNNをCOCOタスク(インスタンスセグメンテーション、境界ボックス検出、キーポイント検出)で評価する。
- バックボーンアーキテクチャをまたいだ訓練/推論の効率とフレームワークの汎用性を示す。
提案手法
- Faster R-CNNを並列マスク予測ブランチで各RoIに拡張する。
- RoIPoolによるRoIのずれを二分補間で解消するRoIAlignを導入して量子化なしに整列を改善する。
- RoIごとにK個の二値マスクを予測し、各クラスごとに1つのマスクを用い、マスクブランチの損失をバイナリクロスエントロピーであるマスクブランス(L_mask)として適用する。
- 空間レイアウトを保持するために、ベクトルへ圧縮せずm x mマスクを保持するFCNベースのマスクヘッドを使用する。
- 訓練はマルチタスク損失L = L_cls + L_box + L_maskで行い、可能な限り特徴を共有する。
- Mask R-CNNをResNet-50/101、FPN、そして(任意で)ResNeXtといったバックボーンで実装し、COCOで評価する。
実験結果
リサーチクエスチョン
- RQ1Faster R-CNNに並列のマスクブランチを追加することで、検出性能を犠牲にすることなく正確なインスタンスセグメンテーションを得られるか?
- RQ2RoIAlignはインスタンスセグメンテーションの文脈でRoIPoolと比較してマスク品質をどの程度改善するか?
- RQ3マスク予測を分類予測からデカップリング(クラスごとの二値マスク)することはインスタンスセグメンテーションの精度に有益か?
- RQ4異なるバックボーン(ResNet、FPN、ResNeXt)はMask R-CNNにおけるマスク、ボックス、キーポイントの性能にどのような影響を与えるか?
- RQ5Mask R-CNNを人間のポーズ推定など他のタスクに拡張しても速度を維持できるか?
主な発見
| バックボーン | AP | AP 50 | AP 75 | AP S | AP M | AP L |
|---|---|---|---|---|---|---|
| MNC [10] ResNet-101-C4 | 24.6 | 44.3 | 24.8 | 4.7 | 25.9 | 43.6 |
| FCIS [26] +OHEM ResNet-101-C5-dilated | 29.2 | 49.5 | - | 7.1 | 31.3 | 50.0 |
| FCIS+++ [26] +OHEM ResNet-101-C5-dilated | 33.6 | 54.5 | - | - | - | - |
| Mask R-CNN ResNet-101-C4 | 33.1 | 54.9 | 34.8 | 12.1 | 35.6 | 51.1 |
| Mask R-CNN ResNet-101-FPN | 35.7 | 58.0 | 37.8 | 15.5 | 38.1 | 52.4 |
| Mask R-CNN ResNeXt-101-FPN | 37.1 | 60.0 | 39.4 | 16.9 | 39.9 | 53.5 |
- ResNet-101-FPNを用いたMask R-CNNはCOCO test-devで35.7のマスクAPを達成し、従来の単一モデル手法を上回る。
- RoIAlignはRoIPoolと比較してマスクAPを約3ポイント、AP 75を約5ポイント向上させ、高IoU領域で大きな改善を示す。
- マスクとクラス予測を独立したクラス別マスク(バイナリシグモイド)でデカップリングすることで、マルチノミアルソフトマックス手法より+5.5のAPを得る。
- バックボーンの選択は性能に大きく影響し、より深いネットワークにFPNとResNeXtを組み合わせると顕著な向上が得られる(例:ResNeXt-101-FPNでマスクAPが37.1へ向上)。
- 同じバックボーンを用いた場合、Mask R-CNNは境界ボックス検出も改善し、ボックスとマスクAPの差が縮まる(例:いくつかの構成で2.7ポイント)。
- 特徴共有(RPNとMask R-CNNを用いた推論)は画像あたり約195 msで動作し、COCOでの訓練は8 GPUで32–44時間。マルチタスク訓練はタスク全体で強力な利得を提供する。
- フレームワークはキーポイントをワンホットマスクとして扱うことで人間のポーズ推定にも一般化し、COCOキーポイントタスクで競争力のあるAPを達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。