QUICK REVIEW

[論文レビュー] Deformable DETR: Deformable Transformers for End-to-End Object Detection

Xizhou Zhu, Weijie Su|arXiv (Cornell University)|Oct 8, 2020

Advanced Neural Network Applications参考文献 44被引用数 1,866

ひとこと要約

Deformable DETRは標準のTransformer注意機構を変形可能な注意に置き換え、参照点の周囲の小さなサンプリング点集合に注意を払うことで早期収束と小オブジェクト検出の改善を実現するエンドツーエンドのDETR風検出器である。マルチスケール特徴と反復的な refine をサポートし、DETRよりもはるかに少ないエポック数で強力なCOCO結果を達成する。

ABSTRACT

DETR has been recently proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance. However, it suffers from slow convergence and limited feature spatial resolution, due to the limitation of Transformer attention modules in processing image feature maps. To mitigate these issues, we proposed Deformable DETR, whose attention modules only attend to a small set of key sampling points around a reference. Deformable DETR can achieve better performance than DETR (especially on small objects) with 10 times less training epochs. Extensive experiments on the COCO benchmark demonstrate the effectiveness of our approach. Code is released at https://github.com/fundamentalvision/Deformable-DETR.

研究の動機と目的

DETRのように手作業の部品を排除したエンドツーエンド物体検出を動機づけつつ、収束の遅さと小-objectの性能の課題に対処する。
計算量を削減し訓練効率を改善するため、疎なサンプリング点に注意を払う変形可能な注意機構を導入する。
変形可能な注意によるマルチスケール特徴を活用して、Heavy FPNへの過度な依存を避けつつ異なるスケールの物体をより良く扱えるようにする。

提案手法

各ヘッドあたり参照点の周囲でK点をサンプリングするマルチスケールの変形可能な注意に置換する（Eq. 2）。
Lレベルからのサンプリングによりマルチスケール特徴へ拡張する（Eq. 3）。
DETRのエンコーダ Cross-attentionを変形可能な注意に置換する。自己注意は変更しない。
クエリごとに参照点を予測し、デコーダヘッドの訓練収束を助けるために相対的なバウンディングボックスオフセットを使用する。
デコーダ層を通じた反復的なバウンディングボックス refinement により精度を向上させる。
領域提案を生成してデコーダで refine する2段階のDeformable DETRを探る。

実験結果

リサーチクエスチョン

RQ1変形可能な注意は、画像特徴マップのためのフル注意を置換するデータ依存の疎サンプリングを提供できるか。
RQ2マルチスケールの変形可能な注意は、DETRよりも収束の速い競争力のある精度を持つエンドツーエンド物体検出を可能にするか。
RQ3反復的なバウンディングボックス refinement と2段階 variant がCOCO性能にどのような影響を与えるか。

主な発見

Method	Epochs	AP	AP_50	AP_75	AP_S	AP_M	AP_L	params	FLOPs	Training_GPU_hours	Inference_FPS
Faster R-CNN + FPN	109	42.0	62.1	45.5	26.6	45.4	53.4	42M	180G	380	26
DETR	500	42.0	62.4	44.2	20.5	45.8	61.1	41M	86G	2000	28
DETR-DC5	500	43.3	63.1	45.9	22.5	47.3	61.1	41M	187G	7000	12
DETR-DC5	50	35.3	55.7	36.8	15.2	37.5	53.6	41M	187G	700	12
DETR-DC5 +	50	36.2	57.0	37.4	16.3	39.2	53.9	41M	187G	700	12
Deformable DETR	50	43.8	62.6	47.7	26.4	47.1	58.0	40M	173G	325	19
+ iterative bounding box refinement	50	45.4	64.7	49.0	26.8	48.3	61.7	40M	173G	325	19
++ two-stage Deformable DETR	50	46.2	65.2	50.0	28.8	49.2	61.7	40M	173G	340	19

Deformable DETRは約10倍の学習エポック数を削減してもDETRより良いCOCO性能を達成し、特に小オブジェクト検出を改善する。
K点を伴うマルチスケールの変形可能な注意と複数の特徴レベル（L）を用いると、単一スケールや非変形バリアントよりAPおよびAP_Sが高くなる。
反復的なバウンディングボックス refinementと2段階Deformable DETRはさらなる性能向上を提供する。
COCO 2017 valで、refinementsを用いたDeformable DETRは50エポックでAPがおよそ45.4–46.2に達し、DETRの500エポックの42.0 APを上回る。
Faster R-CNN + FPNと比較すると、Deformable DETRはFLOPsは同程度で、DETR-DC5より訓練がはるかに速く、実行時はFaster R-CNN + FPNに近い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。