QUICK REVIEW

[論文レビュー] Objects as Points

Xingyi Zhou, Dequan Wang|arXiv (Cornell University)|Apr 16, 2019

Advanced Neural Network Applications参考文献 59被引用数 739

ひとこと要約

この論文では、物体を軸に整列したバウンディングボックスではなく、単一の中心点としてモデル化する新しい物体検出フレームワーク、CenterNetを提案する。キーポイント推定を用いて中心点を予測し、サイズ、3次元位置、方向などの物体の特性を回帰することで、MS COCOで142 FPSで28.1% APを達成し、マルチスケールテストでは1.4 FPSで45.1% APを達成するなど、最先端の速度-精度トレードオフを実現した。

ABSTRACT

Detection identifies objects as axis-aligned boxes in an image. Most successful object detectors enumerate a nearly exhaustive list of potential object locations and classify each. This is wasteful, inefficient, and requires additional post-processing. In this paper, we take a different approach. We model an object as a single point --- the center point of its bounding box. Our detector uses keypoint estimation to find center points and regresses to all other object properties, such as size, 3D location, orientation, and even pose. Our center point based approach, CenterNet, is end-to-end differentiable, simpler, faster, and more accurate than corresponding bounding box based detectors. CenterNet achieves the best speed-accuracy trade-off on the MS COCO dataset, with 28.1% AP at 142 FPS, 37.4% AP at 52 FPS, and 45.1% AP with multi-scale testing at 1.4 FPS. We use the same approach to estimate 3D bounding box in the KITTI benchmark and human pose on the COCO keypoint dataset. Our method performs competitively with sophisticated multi-stage methods and runs in real-time.

研究の動機と目的

多数の候補バウンディングボックスを列挙する従来の物体検出器の非効率さと複雑さを解消すること。
各物体をそのバウンディングボックスの中心点として単一の点としてモデル化することで、計算オーバーヘッドを低減し、物体検出を単純化すること。
後処理を排除し、エンドツーエンド微分可能な学習を可能にすることで、推論速度と精度を向上させること。
中心点のパラダイムを3次元検出および人体キーポイント推定に拡張し、広範な適用可能性を示すこと。

提案手法

検出器は、画像内の各物体の中心点をキーポイント推定によって予測する。
検出された中心点ごとに、幅、高さ、3次元位置、方向、キーポイント座標などの物体の特性をネットワークが回帰する。
この手法はエンドツーエンド微分可能であり、中心点予測と回帰ヘッドの共同最適化が可能である。
1段階アーキテクチャにより、領域提案ネットワークや非最大値抑制の必要がなくなる。
マルチスケール特徴量学習のため、特徴量ピラミッドネットワークとアワーガラス型バックボーンを活用する。
回帰ヘッドを適切に変更することで、KITTIにおける3次元検出およびCOCOにおけるキーポイント推定にこのアプローチを適応する。

実験結果

リサーチクエスチョン

RQ1物体検出を物体の重心を中心としたキーポイント推定問題に再定式化することは効果的か？
RQ2物体を単一の点としてモデル化することで、従来のボックスベースの検出器と比較して、より高速な推論と向上した精度が達成できるか？
RQ3中心点のパラダイムは、3次元物体検出および人体キーポイント推定タスクに一般化可能か？
RQ4MS COCOおよびKITTIベンチマークにおいて、提案手法は既存の最先端の検出器と比較して、速度-精度トレードオフで優れているか？

主な発見

CenterNetは、MS COCOで142 FPSで28.1% APを達成し、優れた速度-精度トレードオフを示した。
52 FPSの速度で37.4% APを達成し、同程度の推論速度を持つ多くの既存の検出器を上回った。
マルチスケールテストを適用した場合、CenterNetはMS COCOで45.1% APに達し、より複雑なモデルに近い性能に近づいた。
KITTIベンチマークにおける3次元検出では、リアルタイム推論を達成するなど、競争力のある性能を示した。
COCOデータセットにおける人体キーポイント推定でも、最先端の結果を達成しながらリアルタイム推論を維持した。
エンドツーエンド微分可能な設計により、非最大値抑制のような後処理の必要がなくなった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。