[論文レビュー] DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR
DAB-DETR はアンカーボックス (x, y, w, h) を DETR で動的に更新されるクエリとして扱い、オブジェクトのスケールでクロスアテンションを調整し、同じ設定で COCO における DETR 風の最先端性能を達成する。
We present in this paper a novel query formulation using dynamic anchor boxes for DETR (DEtection TRansformer) and offer a deeper understanding of the role of queries in DETR. This new formulation directly uses box coordinates as queries in Transformer decoders and dynamically updates them layer-by-layer. Using box coordinates not only helps using explicit positional priors to improve the query-to-feature similarity and eliminate the slow training convergence issue in DETR, but also allows us to modulate the positional attention map using the box width and height information. Such a design makes it clear that queries in DETR can be implemented as performing soft ROI pooling layer-by-layer in a cascade manner. As a result, it leads to the best performance on MS-COCO benchmark among the DETR-like detection models under the same setting, e.g., AP 45.7\% using ResNet50-DC5 as backbone trained in 50 epochs. We also conducted extensive experiments to confirm our analysis and verify the effectiveness of our methods. Code is available at \url{https://github.com/SlongLiu/DAB-DETR}.
研究の動機と目的
- DETRクエリの理解を深め、DETRの訓練収束を改善する。
- アンカーが直接学習され、Transformerデコーダのクエリとして使用される、クエリの定式化を導入する。
- オブジェクトスケール情報を活用してクロスアテンションをモジュール化し、特徴のプーリングをより正確にする。
- 動的で層ごとに更新されるアンカーボックスが従来のDETR風クエリより性能向上をもたらすことを示す。
- 同じ設定の下でCOCOにおけるDETR風モデルの中で最先端の結果を示す。
提案手法
- 4Dアンカーボックス(x, y, w, h) をクエリとして提案し、正弦波埋め込みを用いたMLPで位置情報クエリを生成する。
- 自己注意・相互注意の両方で内容情報と位置情報を連結して使用し、スケール条件付きクロスアテンション機構を用いる。
- 層ごとにアンカーを更新し、Δx, Δy, Δw, Δh の相対デルタを共有ヘッドで予測する。
- 幅と高さ情報 (w, h) を用いて注意におけるガウシアン様の位置事前分布をオブジェクトスケールに適応させる。
- 位置注意のソフトさを調整するための温度パラメータ T を導入し、視覚特有の設定 (T = 20) を使用する。
- オプションとしてより強力なバリアント (DAB-DETR-Deformable) を提供し、各成分の寄与を確認する詳細なアブレーションを行う。
実験結果
リサーチクエスチョン
- RQ1アンカーベースのクエリは従来の学習可能クエリと比較して収束と精度の点でどうか?
- RQ2ダイナミックでスケール認識を持つアンカーボックスをクエリとして使用すると、クロスアテンションと様々なサイズのオブジェクトの位置特定が改善されるか?
- RQ3アンカーを層ごとに更新することはDETR風検出器にどのような影響を与えるか?
- RQ4幅/高さで調整された注意と温度調整を組み込むことはCOCOで測定可能な利得をもたらすか?EDR?
主な発見
| モデル | マルチスケール | #epochs | AP | AP 50 | AP 75 | AP S | AP M | AP L | GFLOPs | パラメータ |
|---|---|---|---|---|---|---|---|---|---|---|
| DETR-R 50 | 500 | 42.0 | 62.4 | 44.2 | 20.5 | 45.8 | 61.1 | 86 | 41 M | |
| Anchor DETR-R 50* | - | 50 | 42.1 | 63.1 | 44.9 | 22.3 | 46.2 | 60.0 | - | 39 M |
| DAB-DETR-R 50 | - | 50 | 42.2 | 63.1 | 44.7 | 21.5 | 45.7 | 60.3 | 94 | 44 M |
| DAB-DETR-R 50* | - | 50 | 42.6 | 63.2 | 45.6 | 21.8 | 46.2 | 61.1 | 100 | 44 M |
| DETR-DC5-R 50 | - | 500 | 43.3 | 63.1 | 45.9 | 22.5 | 47.3 | 61.1 | 187 | 41 M |
| Deformable DETR-R 50 | ✓ | 50 | 43.8 | 62.6 | 47.7 | 26.4 | 47.1 | 58.0 | 173 | 40 M |
| SMCA-R 50 | ✓ | 50 | 43.7 | 63.6 | 47.2 | 24.2 | 47.0 | 60.4 | 152 | 40 M |
- DAB-DETR は ResNet-50 (DC5) で COCO AP 45.7 を達成し、同じ設定下でいくつかのDETR風モデルを上回る。
- 4Dアンカーボックスをクエリとして使用すると、アンカーボックス vs アンカーポイントの定式化を比較した場合 AP が 44.0 から 45.0 に改善した(アブレーション)。
- 動的アンカー更新は層を跨いで 1.7 AP の利得をもたらす。
- 幅/高さで調整された注意と温度調整はさらなる利得に寄与し、アブレーションではこれらの成分を取り除くと性能が低下することが示される。
- パターン埋め込みを用いると、DAB-DETR バリアントはバックボーンを超えて prior DETR-like 手法を凌駕し、提案設計の有効性を検証している。
- ベースライン DETR やいくつかのバリアントと比較して、DAB-DETR はマルチスケール DETR-like アプローチに対しても高い性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。