[論文レビュー] DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
DINOは対比的デノイジング訓練、混合クエリ初期化、および look-forward-two メカニズムによりDETRを改善し、COCOで小型モデルとデータ footprintsで最先端のエンドツーエンド物体検出を達成します。バックボーンと事前学習 regimeを跨いで強いスケーラビリティを示します。
We present DINO ( extbf{D}ETR with extbf{I}mproved de extbf{N}oising anch extbf{O}r boxes), a state-of-the-art end-to-end object detector. % in this paper. DINO improves over previous DETR-like models in performance and efficiency by using a contrastive way for denoising training, a mixed query selection method for anchor initialization, and a look forward twice scheme for box prediction. DINO achieves $49.4$AP in $12$ epochs and $51.3$AP in $24$ epochs on COCO with a ResNet-50 backbone and multi-scale features, yielding a significant improvement of $ extbf{+6.0}$ extbf{AP} and $ extbf{+2.7}$ extbf{AP}, respectively, compared to DN-DETR, the previous best DETR-like model. DINO scales well in both model size and data size. Without bells and whistles, after pre-training on the Objects365 dataset with a SwinL backbone, DINO obtains the best results on both COCO exttt{val2017} ($ extbf{63.2}$ extbf{AP}) and exttt{test-dev} ( extbf{$ extbf{63.3}$AP}). Compared to other models on the leaderboard, DINO significantly reduces its model size and pre-training data size while achieving better results. Our code will be available at \url{https://github.com/IDEACVR/DINO}.
研究の動機と目的
- N/A
- - エンドツーエンドの物体検出を、NMSやアンカーのような手作りコンポーネントなしで動機づける。
- - 従来のDETR系モデルの訓練効率と精度を、新規訓練およびクエリ戦略で向上させる。
- - バックボーンと大規模事前学習にまたがるスケーラビリティを示しつつ、データ/パラメータ要件を削減する。
提案手法
- DetectorのクエリをTransformerフレームワーク内の動的4Dアンカーボックスとして定式化し、 deformable Attentionを用いる。
- Contrastive DeNoising Trainingを導入して、 robustな1対1マッチングの正例/負例を作成する。
- Mixed Query Selectionを提案し、エンコーダ特徴から位置クエリを初期化しつつ、コンテンツクエリは学習可能のままにする。
- Look Forward Twiceを実装して、後段の層からの勾配を用いて前段のパラメータを refined にすることで、より良いボックス予測を可能にする。
実験結果
リサーチクエスチョン
- RQ1対比デノイジングはDETR系モデルにおける1対1マッチングを改善し、重複を減らすのか?
- RQ2混合クエリ初期化は空間的 priors を向上させ、コンテンツクエリの学習を損なわないのか?
- RQ3look-forward-twice スキームは後段層の refine 情報を利用して早期層のボックス予測を改善するのか?
- RQ4小さめのバックボーンと大規模な事前学習におけるDINOの性能は、従来のDETR系モデルと比較してどうか?
- RQ5エンドツーエンドのTransformer検出は、データ量とモデル規模を変えた場合に従来の検出器と比べて競争力があるのか?
主な発見
| Model | Epochs | AP | AP50 | AP75 | AP_S | AP_M | AP_L | GFLOPS | Params | FPS |
|---|---|---|---|---|---|---|---|---|---|---|
| DINO-4scale | 12 | 49.0 (+5.6) | 66.6 | 53.5 | 32.0 (+7.2) | 52.3 | 63.0 | 279 | 47 M | 24 |
| DINO-5scale | 12 | 49.4 (+6.0) | 66.9 | 53.8 | 32.3 (+7.5) | 52.5 | 63.9 | 860 | 47 M | 10 |
- DINOはCOCO val2017でResNet-50を用い、12エポックで4スケールのAPが49.0、5スケールのAPが49.4、従来のDETR系モデルを上回る。
- SwinLバックボーンをObjects365で事前学習させた場合、DINOはCOCO val2017で63.2 AP、test-devで63.3 APを達成し、エンドツーエンドのDETR風結果として新しいSOTAを樹立。
- DINO-5scaleはval2017でDINO-4scaleよりAPを+0.4上回り、test-devでもより高いAPを達成し、複数スケールでの強いスケーラビリティを示す。
- アブレーションではCDN(対照的デノイジング)とlook-forward-twiceが最適化されたDN-DETRおよび純粋なクエリ選択よりも改善を提供し、全体のDINO構成が最良の結果を生む。
- DINOはSwinV2-Gの1/15のモデルサイズに縮小し、事前学習データ要件を低減(バックボーンで1/60、検出データで1/5)しつつCOCOスコアで優れた性能を発揮。
- 小物体で顕著なゲインを示し(12エポックで+7.5 AP)、ベースラインと比較して優位性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。