Skip to main content
QUICK REVIEW

[論文レビュー] Deformable DETR: Deformable Transformers for End-to-End Object Detection

Xizhou Zhu, Weijie Su|arXiv (Cornell University)|Oct 8, 2020
Advanced Neural Network Applications参考文献 44被引用数 1,866
ひとこと要約

Deformable DETRは標準のTransformer注意機構を変形可能な注意に置き換え、参照点の周囲の小さなサンプリング点集合に注意を払うことで早期収束と小オブジェクト検出の改善を実現するエンドツーエンドのDETR風検出器である。マルチスケール特徴と反復的な refine をサポートし、DETRよりもはるかに少ないエポック数で強力なCOCO結果を達成する。

ABSTRACT

DETR has been recently proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance. However, it suffers from slow convergence and limited feature spatial resolution, due to the limitation of Transformer attention modules in processing image feature maps. To mitigate these issues, we proposed Deformable DETR, whose attention modules only attend to a small set of key sampling points around a reference. Deformable DETR can achieve better performance than DETR (especially on small objects) with 10 times less training epochs. Extensive experiments on the COCO benchmark demonstrate the effectiveness of our approach. Code is released at https://github.com/fundamentalvision/Deformable-DETR.

研究の動機と目的

  • DETRのように手作業の部品を排除したエンドツーエンド物体検出を動機づけつつ、収束の遅さと小-objectの性能の課題に対処する。
  • 計算量を削減し訓練効率を改善するため、疎なサンプリング点に注意を払う変形可能な注意機構を導入する。
  • 変形可能な注意によるマルチスケール特徴を活用して、Heavy FPNへの過度な依存を避けつつ異なるスケールの物体をより良く扱えるようにする。

提案手法

  • 各ヘッドあたり参照点の周囲でK点をサンプリングするマルチスケールの変形可能な注意に置換する(Eq. 2)。
  • Lレベルからのサンプリングによりマルチスケール特徴へ拡張する(Eq. 3)。
  • DETRのエンコーダ Cross-attentionを変形可能な注意に置換する。自己注意は変更しない。
  • クエリごとに参照点を予測し、デコーダヘッドの訓練収束を助けるために相対的なバウンディングボックスオフセットを使用する。
  • デコーダ層を通じた反復的なバウンディングボックス refinement により精度を向上させる。
  • 領域提案を生成してデコーダで refine する2段階のDeformable DETRを探る。

実験結果

リサーチクエスチョン

  • RQ1変形可能な注意は、画像特徴マップのためのフル注意を置換するデータ依存の疎サンプリングを提供できるか。
  • RQ2マルチスケールの変形可能な注意は、DETRよりも収束の速い競争力のある精度を持つエンドツーエンド物体検出を可能にするか。
  • RQ3反復的なバウンディングボックス refinement と2段階 variant がCOCO性能にどのような影響を与えるか。

主な発見

MethodEpochsAPAP_50AP_75AP_SAP_MAP_LparamsFLOPsTraining_GPU_hoursInference_FPS
Faster R-CNN + FPN10942.062.145.526.645.453.442M180G38026
DETR50042.062.444.220.545.861.141M86G200028
DETR-DC550043.363.145.922.547.361.141M187G700012
DETR-DC55035.355.736.815.237.553.641M187G70012
DETR-DC5 +5036.257.037.416.339.253.941M187G70012
Deformable DETR5043.862.647.726.447.158.040M173G32519
+ iterative bounding box refinement5045.464.749.026.848.361.740M173G32519
++ two-stage Deformable DETR5046.265.250.028.849.261.740M173G34019
  • Deformable DETRは約10倍の学習エポック数を削減してもDETRより良いCOCO性能を達成し、特に小オブジェクト検出を改善する。
  • K点を伴うマルチスケールの変形可能な注意と複数の特徴レベル(L)を用いると、単一スケールや非変形バリアントよりAPおよびAP_Sが高くなる。
  • 反復的なバウンディングボックス refinementと2段階Deformable DETRはさらなる性能向上を提供する。
  • COCO 2017 valで、refinementsを用いたDeformable DETRは50エポックでAPがおよそ45.4–46.2に達し、DETRの500エポックの42.0 APを上回る。
  • Faster R-CNN + FPNと比較すると、Deformable DETRはFLOPsは同程度で、DETR-DC5より訓練がはるかに速く、実行時はFaster R-CNN + FPNに近い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。