Skip to main content
QUICK REVIEW

[論文レビュー] Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR

Feng Li, Ailing Zeng|arXiv (Cornell University)|Mar 13, 2023
Advanced Neural Network Applications被引用数 7
ひとこと要約

Lite DETRはInterleavedマルチスケールエンコーダとKDAアテンションを備え、計算量を削減しつつ小物体検出で競争力のある精度を実現。Sparse DETRとDeformable DETRに比べてGFLOPsを削減し、微小物体検出を改善。

ABSTRACT

Recent DEtection TRansformer-based (DETR) models have obtained remarkable performance. Its success cannot be achieved without the re-introduction of multi-scale feature fusion in the encoder. However, the excessively increased tokens in multi-scale features, especially for about 75\% of low-level features, are quite computationally inefficient, which hinders real applications of DETR models. In this paper, we present Lite DETR, a simple yet efficient end-to-end object detection framework that can effectively reduce the GFLOPs of the detection head by 60\% while keeping 99\% of the original performance. Specifically, we design an efficient encoder block to update high-level features (corresponding to small-resolution feature maps) and low-level features (corresponding to large-resolution feature maps) in an interleaved way. In addition, to better fuse cross-scale features, we develop a key-aware deformable attention to predict more reliable attention weights. Comprehensive experiments validate the effectiveness and efficiency of the proposed Lite DETR, and the efficient encoder strategy can generalize well across existing DETR-based models. The code will be available in \url{https://github.com/IDEA-Research/Lite-DETR}.

研究の動機と目的

  • Deformable DETRとDINOバックボーンで効率的な物体検出を動機付ける。
  • 高解像度の低レベル特徴を保持しつつ計算を削減する。
  • 小物体検出を改善し重複を減らすためにKDAアテンションを導入する。
  • Lite-Deformable DETRとLite DINOをSparse DETRとDINO-3scaleベースラインと比較評価する。
  • 設計選択を検証する定性的分析と失敗ケースを提供する。

提案手法

  • マルチスケールエンコーダ計算をインターレーブすることでLite DETRを提案する。
  • 低レベル特徴のサンプリングを強化するためにKDAアテンションを採用する。
  • 小物体と大物体での利点を示すためにSparse DETRとDINO-3scaleと比較する。
  • サンプリング地点とアテンション挙動を可視化分析で示す。
  • ベースラインとLiteモデルのAP指標とGFLOPsを用いた定量的結果を提示する。

実験結果

リサーチクエスチョン

  • RQ1InterleavedなマルチスケールエンコーダとKDAアテンションは、ベースラインのDETRバリアントと比較して小物体検出を改善するか?
  • RQ2Lite DETRは計算量(GFLOPs)を削減しつつスケール全体でAPを維持または改善できるか?
  • RQ3Lite DETRはSparse DETRとDINO-3scaleと比較して中〜大型物体でどうなるか?
  • RQ4高解像度の低レベル特徴を保持する必要があるのか、Lite DINOはDINO-3scaleとどう比較するか?
  • RQ5Lite DETRの失敗モードは何で、それをどう緩和できるか?

主な発見

Model#epochsAPAP50AP75AP_SAP_MAP_LGFLOPsEncoder GFLOPsParams
Deformable DETR5046.866.050.629.849.762.01779040M
Lite-Deformable DETR H3L1-(2+1)x3(25%, ours)5046.766.150.629.149.762.21233941M
Sparse DETR ∗ -rho-0.35046.065.949.729.149.160.61274041M
  • Lite-Deformable DETRは同等のGFLOPs下でSparse DETRより高いAP_Lを達成(AP_L 62.2 vs 60.6)。
  • Lite DETRバリアントは高レベルと低レベルの特徴の相互作用を保持し、小物体検出を改善しKDAアテンションによって重複検出を削減。
  • KDAアテンションは小物体検出で変形可能アテンションを上回り、Lite DINOで重複検出を削減。
  • Lite DINOはLite-3scaleに似た設計で元のDINOと同等の性能を維持しつつGFLOPsがわずかに増加。
  • 高解像度マップの直接ドロップ(DINO-3scale)は小物体検出を劣化させる一方、Lite DINOは性能を維持。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。