[論文レビュー] Anchor DETR: Query Design for Transformer-Based Object Detection
Anchor DETRはアンカーポイントベースのクエリ設計で、アンカーごとに複数の予測パターンを持ち、DETRよりも精度が向上し、トレーニングも速くなるとともに、メモリ効率のRow-Column Decoupled Attention(RCDA)変種を提供します。
In this paper, we propose a novel query design for the transformer-based object detection. In previous transformer-based detectors, the object queries are a set of learned embeddings. However, each learned embedding does not have an explicit physical meaning and we cannot explain where it will focus on. It is difficult to optimize as the prediction slot of each object query does not have a specific mode. In other words, each object query will not focus on a specific region. To solved these problems, in our query design, object queries are based on anchor points, which are widely used in CNN-based detectors. So each object query focuses on the objects near the anchor point. Moreover, our query design can predict multiple objects at one position to solve the difficulty: "one region, multiple objects". In addition, we design an attention variant, which can reduce the memory cost while achieving similar or better performance than the standard attention in DETR. Thanks to the query design and the attention variant, the proposed detector that we called Anchor DETR, can achieve better performance and run faster than the DETR with 10$ imes$ fewer training epochs. For example, it achieves 44.2 AP with 19 FPS on the MSCOCO dataset when using the ResNet50-DC5 feature for training 50 epochs. Extensive experiments on the MSCOCO benchmark prove the effectiveness of the proposed methods. Code is available at \url{https://github.com/megvii-research/AnchorDETR}.
研究の動機と目的
- DETRにおける学習済みオブジェクトクエリが明示的な空間的意味を欠き、最適化が難しい理由を動機づけ・説明する。
- 1つの領域に複数の物体が存在する場合を扱うため、アンカーポイントベースのオブジェクトクエリ設計を提案し、各アンカーに複数のパターンを持たせる。
- Row-Column Decoupled Attention (RCDA) を導入し、精度を維持または向上させつつメモリ使用量を削減する。
- MS COCOでの広範な実験を通じて、Anchor DETRがDETRより10分の1のエポック数で性能を上回り、他のDETR風手法と比較して有利であることを示す。
- 各構成要素の有効性を検証する実践的な洞察とアブレーションを提供する。
提案手法
- アンカーポイントをオブジェクトクエリとしてエンコードし、明示的な空間的意味を提供する (Q_p = Encode(Pos_q)).
- 各アンカーポイントに複数のパターンを付与して、1つの位置で複数の物体を予測できるようにする (Q_f^init をパターン付きで Q_f^init + Q_p に拡張)。
- 位置エンコーディング関数 g を用いて Q_p と K_p を計算し、必要に応じて小さな2層MLPで強化する。
- Row-Column Decoupled Attention (RCDA) を導入し、K_f を行と列の成分にデカップル化して、順次の行と列のアテンションを適用してメモリ使用量を削減する。
- DETR風デコーダのクロスアテンションと自己アテンションにRCDAを互換性を保って適用し、性能を維持する。
- ResNet-50-DC5 フィーチャを用いてMS COCOで訓練・評価し、DETRおよび他のDETR風検出器と比較する。
実験結果
リサーチクエスチョン
- RQ1オブジェクトクエリを明示的なアンカーポイントにアンカー付けすることは、学習済み埋め込みと比較してより明確な帰納的バイアスを提供し、最適化を改善するのか。
- RQ21つのアンカーポイントあたり複数の予測パターンは、1つの領域内の複数の物体を効果的に扱えるのか。
- RQ3Row-Column Decoupled Attentionは、標準のDETRアテンションと比較して精度を犠牲にせずメモリ消費を削減できるのか。
- RQ4COCO上で、Anchor DETRの精度と速度はDETRおよび他のDETR風検出器と比べてどうか。
- RQ5アンカーポイントクエリ、複数パターン予測、そしてRCDAの寄与を示すアブレーションは何か。
主な発見
- アンカーポイントベースのクエリと複数パターン予測は、DETRより高いAPを達成する(例:彼らの実験での44.2 AP対DETRベースライン)。
- RCDAアテンションは、標準のDETRアテンションと同等またはそれを上回る精度を提供しつつ、特に高解像度の特徴量でメモリ使用を大幅に削減する。
- 単一のResNet-50-DC5特徴で50エポックの場合、Anchor DETRは19 FPSで44.2 APに到達し、500エポックでマルチレベル特徴を用いるDETR系と比べて上回る。
- 単一のDC5特徴を用いて、Anchor DETRは多階層特徴に依存するDeformable DETRとSMCAと比べて競争力のある結果を達成し、訓練エポック数もかなり少なくて済む。
- アブレーションは、アンカーポイントごとの複数予測とアンカーポイントクエリ設計が共に顕著なAPの向上に寄与することを示し(例:アンカーポイントクエリ設計から4.9 APの向上)。
- アンカーポイントはグリッド化にも学習化にもでき、学習されたポイントはグリッドに類似して一様に分布し、両方とも同等な性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。