QUICK REVIEW

[論文レビュー] Probabilistic two-stage detection

Xingyi Zhou, Vladlen Koltun|arXiv (Cornell University)|Mar 12, 2021

Advanced Neural Network Applications参考文献 59被引用数 161

ひとこと要約

本論文は2段階物体検出の確率的解釈を提示し、強力な1段階の第一段を用いて物体可能性を予測することで、従来の2段階および1段階の方法より高い精度と速度を実現する確率的2段階検出器を構築する。

ABSTRACT

We develop a probabilistic interpretation of two-stage object detection. We show that this probabilistic interpretation motivates a number of common empirical training practices. It also suggests changes to two-stage detection pipelines. Specifically, the first stage should infer proper object-vs-background likelihoods, which should then inform the overall score of the detector. A standard region proposal network (RPN) cannot infer this likelihood sufficiently well, but many one-stage detectors can. We show how to build a probabilistic two-stage detector from any state-of-the-art one-stage detector. The resulting detectors are faster and more accurate than both their one- and two-stage precursors. Our detector achieves 56.4 mAP on COCO test-dev with single-scale testing, outperforming all published results. Using a lightweight backbone, our detector achieves 49.2 mAP on COCO at 33 fps on a Titan Xp, outperforming the popular YOLOv4 model.

研究の動機と目的

2段階物体検出の確率的解釈を動機づけ、段階間の訓練信号を統一する。
扱いやすい下界を介して共同で最適化する確率的目的関数を用いた訓練目的を開発する。
効率的な1段階検出器を活用しつつ、較正された物体可能性を提供する第一段を設計する。
第一段の可能性と第二段の分類を統合し、確率的な2段階検出器を形成する。
COCO、LVIS、Objects365にわたって最先端の結果とリアルタイム変種を示す。

提案手法

各オブジェクトのクラス分布を P(O)（物体可能性、第一段）と P(C|O)（条件付き分類、第二段）に分解する。
下界の緩和を用いた最大尤度で訓練し、2段階を共同で最適化する（式2、式3、式4）。
較正された物体可能性を予測する第一段として、強力な1段階検出器を用いる（例: RetinaNet風、FPN付きCenterNet、ATSS/GFLベースライン）。
第一段の P(O) と第二段の P(C|O) を掛け合わせて得るスコアを最終検出スコアとして組み合わせる。
FasterRCNNとCascadeRCNNを第二段として実験し、さまざまなバックボーン（ResNet、ResNeXt、BiFPN など）で構築する。
確率的2段階推論に合わせてハイパーパラメータ（IoU閾値、提案数、NMS）を調整し、速度の利点を維持する。

実験結果

リサーチクエスチョン

RQ1確率的解釈は第一段が較正された物体可能性を予測するようにすることで、2段階検出器の訓練を統一・改善できるか？
RQ2第一段として従来のRPNを強力な1段検出器に置き換えると、確率的2段検出器の精度と速度の両方が向上するか？
RQ3第一段と第二段のスコアを確率的に結合することは、COCO、LVIS、Objects365の最終検出性能にどう影響するか？
RQ4確率的な2段検出器における提案数と精度のトレードオフは、従来の2段検出器と比べてどうか？

主な発見

確率的な2段検出器は、単一スケールのテストでCOCO test-dev の両方のone-stageおよび従来の2段階の先行モデルを上回り、56.4 mAP。
CenterNet2ベースの構成と強力なバックボーンは56.4 mAPを達成し、COCO test-devで公表済みの結果を上回る。
リアルタイムのCenterNet2バリアントはTitan Xpで33 fps、49.2 mAPを達成し、同ハードウェアでYOLOv4を上回る。
較正された第一段を用い、少数で高品質な提案（256）を使うと、従来のRPNベースの2段検出器で提案数1Kのときより高速かつ高精度になる。
LVISとObjects365全体で、CenterNet2はCascadeRCNNベースラインを2.7–2.9 mAP上回り、大語彙データセットへの頑健性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。