[論文レビュー] Cascade R-CNN: High Quality Object Detection and Instance Segmentation
tldr: Cascade R-CNN は、各段階でより高い IoU 阈値を用いて訓練される多段検出器を導入し、境界ボックスの品質を段階的に改善し、推論をより高品質の仮説に合わせる。インスタンス分割には Cascade Mask R-CNN に拡張される。
In object detection, the intersection over union (IoU) threshold is frequently used to define positives/negatives. The threshold used to train a detector defines its extit{quality}. While the commonly used threshold of 0.5 leads to noisy (low-quality) detections, detection performance frequently degrades for larger thresholds. This paradox of high-quality detection has two causes: 1) overfitting, due to vanishing positive samples for large thresholds, and 2) inference-time quality mismatch between detector and test hypotheses. A multi-stage object detection architecture, the Cascade R-CNN, composed of a sequence of detectors trained with increasing IoU thresholds, is proposed to address these problems. The detectors are trained sequentially, using the output of a detector as training set for the next. This resampling progressively improves hypotheses quality, guaranteeing a positive training set of equivalent size for all detectors and minimizing overfitting. The same cascade is applied at inference, to eliminate quality mismatches between hypotheses and detectors. An implementation of the Cascade R-CNN without bells or whistles achieves state-of-the-art performance on the COCO dataset, and significantly improves high-quality detection on generic and specific object detection datasets, including VOC, KITTI, CityPerson, and WiderFace. Finally, the Cascade R-CNN is generalized to instance segmentation, with nontrivial improvements over the Mask R-CNN. To facilitate future research, two implementations are made available at \url{https://github.com/zhaoweicai/cascade-rcnn} (Caffe) and \url{https://github.com/zhaoweicai/Detectron-Cascade-RCNN} (Detectron).
研究の動機と目的
- より高い IoU 阈値(u)で定義される高品質な物体検出の必要性を動機づける。
- 検出器の品質を次第に高品質な仮説に合わせるカスケード型アーキテクチャを提案する。
- IoU レベル全体で訓練データを再サンプリングすることで過学習と推論時の品質ミスマッチに対処する。
- カスケーディングが局在化を改善し、データセット全体で近接偽陽性を減らすことを示す。
提案手法
- Cascade R-CNN を導入する。Faster R-CNN の多段拡張で、増加する IoU 阈値で訓練されたカスケード境界ボックス回帰器と分類器を含む。
- 各段階で高い IoU の仮説を生成する再サンプリング機構としてカスケード回帰を使用し、訓練サンプル数をほぼ一定に保つ。
- 推論時にも同じカスケードを適用して仮説を段階的に洗練し、検出器の強さを仮説の品質に合わせる。
- 安定したマルチタスク学習のために境界ボックス回帰ターゲットの平均/分散正規化を提供する。
- セグメンテーション分岐を統合してカスケードをインスタンス分割へ拡張し、Cascade Mask R-CNN を得る。
実験結果
リサーチクエスチョン
- RQ1増加する IoU 阈値で訓練されたカスケード検出器は、各段階で十分な positives を維持することで高品質検出のパラドックスを克服できるか?
- RQ2境界ボックス回帰と分類の両方をカスケードすることは、過学習を避けつつ高 IoU の検出を改善するか?
- RQ3カスケード手法は多様なデータセット全体で有用で、既存の検出/分割の強化と互換性があるか?
主な発見
- 単純な Cascade R-CNN の実装は、過度な装飾なしで COCO で最先端の性能を達成する。
- カスケードは、さまざまなベースラインで modest な計算オーバーヘッドとともに精度を 2–4 ポイント向上させる(章の注記参照)。局在化指標がより厳しい場合には利得が大きい。
- カスケード境界ボックス回帰は IoU 品質を段階的に向上させ、カスケード検出は各段階で堅牢な positives 集を維持し、高 IoU 阈値での過学習を緩和する。
- 推論時にカスケードを適用すると、逐次的に高品質の仮説が得られ、より高品質な検出器とより良く一致する。
- カスケードをインスタンス分割に拡張(Cascade Mask R-CNN)すると、複数のデータセットで Mask R-CNN に比して有意な改善をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。