[論文レビュー] RelationNet++: Bridging Visual Representations for Object Detection via Transformer Decoder
RelationNet++ は Bridging Visual Representations (BVR) を導入し、注意機構を用いて異種の物体表現(例:中心点、コーナー、アンカー)を単一の検出器に融合させ、RetinaNet、Faster R-CNN、FCOS、ATSS で一貫した AP 増加を示し、強力なバックボーンを用いて COCO test-dev で 52.7 AP に到達する。
Existing object detection frameworks are usually built on a single format of object/part representation, i.e., anchor/proposal rectangle boxes in RetinaNet and Faster R-CNN, center points in FCOS and RepPoints, and corner points in CornerNet. While these different representations usually drive the frameworks to perform well in different aspects, e.g., better classification or finer localization, it is in general difficult to combine these representations in a single framework to make good use of each strength, due to the heterogeneous or non-grid feature extraction by different representations. This paper presents an attention-based decoder module similar as that in Transformer~\cite{vaswani2017attention} to bridge other representations into a typical object detector built on a single representation format, in an end-to-end fashion. The other representations act as a set of \emph{key} instances to strengthen the main \emph{query} representation features in the vanilla detectors. Novel techniques are proposed towards efficient computation of the decoder module, including a \emph{key sampling} approach and a \emph{shared location embedding} approach. The proposed module is named \emph{bridging visual representations} (BVR). It can perform in-place and we demonstrate its broad effectiveness in bridging other representations into prevalent object detection frameworks, including RetinaNet, Faster R-CNN, FCOS and ATSS, where about $1.5\sim3.0$ AP improvements are achieved. In particular, we improve a state-of-the-art framework with a strong backbone by about $2.0$ AP, reaching $52.7$ AP on COCO test-dev. The resulting network is named RelationNet++. The code will be available at https://github.com/microsoft/RelationNet2.
研究の動機と目的
- 複数の物体/部品表現を単一の検出器内で組み合わせ、その相補的な強みを活用する動機付け。
- マスター表現を補助表現で拡張する一般的なエンドツーエンドのブリッジ(BVR)を開発する。
- 推論を実用的に保つためのキーサンプリングと共有位置埋め込みで効率を確保する。
- BVR のプラグイン適用性を多様な検出器(RetinaNet、Faster R-CNN、FCOS、ATSS)に示す。
- データセット(COCO)と最先端バックボーンでの利得を示す。
提案手法
- Bridging Visual Representations (BVR) を導入。マスター表現がクエリ、補助表現がキーとして機能し、クエリ特徴を強化する注意機構。
- 外観類似性と相対位置埋め込みと小さな MLP を組み合わせたジオメトリ項を用いたマルチヘッド注意の定式化。
- 管理された高品質な補助表現集合を選択するためのキーサンプリング(top-k)を実装。
- 共有相対位置埋め込みを適用してジオメトリ項を効率的に計算し、時間/メモリコストを低減。
- 分類(中心補助)と回帰(コーナー補助)の別々の BVR ブランチを使用して各タスクを強化。
- 入力特徴を置換する形で検出器に BVR をその場で統合し、分類/回帰の特徴を強化された特徴に置換する。
実験結果
リサーチクエスチョン
- RQ1異種の物体/部品表現(アンカー、中心、コーナー)を効果的にブリッジして、主要な推論フローを変更せずに検出を改善できるか。
- RQ2計算量を制御しつつ、クロス表現相互作用を効率的に計算するメカニズム(キーサンプリング、共有位置埋め込み)は何か。
- RQ3分類と回帰のための別々のブリッジブランチは、より良い局在化と認識をもたらすか。
- RQ4BVR は COCO で一段階/二段階、アンカー基/アンカーなしの多様な検出器をどれだけ広く改善できるか。
主な発見
- BVR は RetinaNet、Faster R-CNN、FCOS、ATSS を約 1.5–3.0 AP 向上させる。
- 階層ごとに共有キーを使用する方が独立キーよりも改善が大きく、50 キーで強力な結果が得られる。
- サブピクセル中心/コーナー表現は特に局在化において AP を大幅に向上させる。
- 共有相対位置埋め込みはメモリと FLOPs を大幅に削減しつつ、精度を維持または向上させる(例:42× のメモリ節約)。
- 分類(中心)と回帰(コーナー)の別々の BVR モジュールは、共有構成よりも優れている。
- BVR を強力な ATSS バックボーンに適用すると、COCO test-dev で 52.7 AP(マルチスケールテスト時)に到達する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。