[論文レビュー] CenterNet: Keypoint Triplets for Object Detection
CenterNetは各オブジェクトを中心点、左上、右下の三点で表すトリプレットを検出し、中心プーリングとカスケードコーナープーリングを用いて偽陽性を減らし、COCOの1段のAPで最先端を達成(47.0)で、2段の結果も競争力がある。
In object detection, keypoint-based approaches often suffer a large number of incorrect object bounding boxes, arguably due to the lack of an additional look into the cropped regions. This paper presents an efficient solution which explores the visual patterns within each cropped region with minimal costs. We build our framework upon a representative one-stage keypoint-based detector named CornerNet. Our approach, named CenterNet, detects each object as a triplet, rather than a pair, of keypoints, which improves both precision and recall. Accordingly, we design two customized modules named cascade corner pooling and center pooling, which play the roles of enriching information collected by both top-left and bottom-right corners and providing more recognizable information at the central regions, respectively. On the MS-COCO dataset, CenterNet achieves an AP of 47.0%, which outperforms all existing one-stage detectors by at least 4.9%. Meanwhile, with a faster inference speed, CenterNet demonstrates quite comparable performance to the top-ranked two-stage detectors. Code is available at https://github.com/Duankaiwen/CenterNet.
研究の動機と目的
- 内部オブジェクト領域パターンを活用してワンステージのキーポイントベース物体検出器の改善を動機づける。
- CornerNetを拡張し、堅牢なオブジェクト表現のために中心鍵点を導入して鍵点トリプレットを形成する。
- 中心プーリングとカスケードコーナープーリングを用いてコーナー特徴と中心特徴を豊富にし、精度と再現率を向上させる。
- MS-COCOでCenterNetを評価し、物体スケール全般でAPとARの向上を定量化し、最先端検出器と比較する。
提案手法
- 各オブジェクトを中心鍵点と2つのコーナーからなるトリプレットとして表現する。
- CornerNetと同様に埋め込みとオフセットを用いて中心ヒートマップとコーナーヒートマップを予測し、コーナーペアから境界ボックスを形成する。
- 提案された境界ボックスごとにスケール認識型の中心領域を定義し、この領域内に同一クラスの中心鍵点があることを検証してボックスを確定する。
- 水平方向および垂直方向の最大応答を集約して中心鍵点を強化する中心プーリングを導入する。
- 境界と内部方向の最大応答を組み合わせてコーナー特徴を豊富にするカスケードコーナープーリングを導入する。
- コーナーと中心の focal loss、埋め込みのプル/プッシュ損失、オフセット損失を含む多項目的損失で訓練し、推論時には中心検証と非極大抑制を実施する。
実験結果
リサーチクエスチョン
- RQ1中心領域内の中心鍵点はコーナー基づく検出の正確性を改善できるか?
- RQ2中心プーリングとカスケードコーナープーリングで中心およびコーナー情報を豊富にするとCOCOでのAPとARは向上するか?
- RQ3CenterNetはMS-COCOでCornerNetや他の最先端検出器と比べてどう性能か?
- RQ4スケール認識型中心領域が小さな物体と大きな物体の検出に与える影響は何か?
主な発見
| 手法 | バックボーン | 訓練入力 | 推論入力 | AP | AP 50 | AP 75 | AP S | AP M | AP L | AR 1 | AR 10 | AR 100 | AR S | AR M | AR L |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| CornerNet511-52 | Hourglass-52 | 511×511 | ori. | 37.8 | 53.7 | 40.1 | 17.0 | 39.0 | 50.5 | 33.9 | 52.3 | 57.0 | 35.0 | 59.3 | 74.7 |
| CornerNet511-104 | Hourglass-104 | 511×511 | ori. | 40.5 | 56.5 | 43.1 | 19.4 | 42.7 | 53.9 | 35.3 | 54.3 | 59.1 | 37.4 | 61.9 | 76.9 |
| CornerNet511 (multi-scale) | Hourglass-52 | 511×511 | <=1.5× | 39.4 | 54.9 | 42.3 | 18.9 | 41.2 | 53.5 | 35.0 | 53.5 | 57.7 | 36.1 | 60.1 | 75.1 |
| CornerNet511 (multi-scale) | Hourglass-104 | 511×511 | <=1.5× | 42.1 | 57.8 | 45.3 | 20.8 | 44.8 | 56.7 | 36.4 | 55.7 | 60.0 | 38.5 | 62.7 | 77.4 |
| CenterNet511-52 | Hourglass-52 | 511×511 | ori. | 41.6 | 59.4 | 44.2 | 22.5 | 43.1 | 54.1 | 34.8 | 55.7 | 60.1 | 38.6 | 63.3 | 76.9 |
| CenterNet511-104 | Hourglass-104 | 511×511 | ori. | 44.9 | 62.4 | 48.1 | 25.6 | 47.4 | 57.4 | 36.1 | 58.4 | 63.3 | 41.3 | 67.1 | 80.2 |
| CenterNet511 (multi-scale) | Hourglass-52 | 511×511 | <=1.8× | 43.5 | 61.3 | 46.7 | 25.3 | 45.3 | 55.0 | 36.0 | 57.2 | 61.3 | 41.4 | 64.0 | 76.3 |
| CenterNet511 (multi-scale) | Hourglass-104 | 511×511 | <=1.8× | 47.0 | 64.5 | 50.7 | 28.9 | 49.9 | 58.9 | 37.5 | 60.3 | 64.8 | 45.1 | 68.3 | 79.7 |
- CenterNetはCenterNet102/104バックボーンとマルチスケールテストでCOCO test-devにおいて47.0%のAPを達成し、既存の全ての1段検出器を少なくとも4.9%AP上回る。
- CenterNetはCornerNetと比較して特に小さな物体に対する誤検出(不正確な境界ボックス)を減らす。
- 中心プーリングとカスケードコーナープーリングを用いたCenterNetは、CornerNetのベースラインよりAPとARの向上を示し、バックボーンとスケールに応じて小さい物体と大きい物体でより大きな改善を得る。
- スケール認識型中心領域は小さなボックスのリコールを改善し、大きなボックスの精度を維持する。
- Hourglass-104バックボーンを用いたCenterNetの単一スケールAPは44.9%(単一スケール)および47.4%(マルチスケール)に達し、Hourglass-104を用いたマルチスケールCenterNetは47.0%のAPを達成し、上位2段検出器と競合する。
- 推論速度は実用的なままで(画像あたり270–340ms)、ベースラインより大幅に精度を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。