[論文レビュー] LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection
LW-DETR はプレーンな ViT エンコーダと浅い DETR デコーダを備えた軽量 DETR ベース検出器を導入し、複数のモデルスケールで YOLO ベースのリアルタイム検出器より高い精度と低い待機時間を達成する。交互配置のウィンドウ/グローバルアテンションと Objects365 の事前学習が奏功している。
In this paper, we present a light-weight detection transformer, LW-DETR, which outperforms YOLOs for real-time object detection. The architecture is a simple stack of a ViT encoder, a projector, and a shallow DETR decoder. Our approach leverages recent advanced techniques, such as training-effective techniques, e.g., improved loss and pretraining, and interleaved window and global attentions for reducing the ViT encoder complexity. We improve the ViT encoder by aggregating multi-level feature maps, and the intermediate and final feature maps in the ViT encoder, forming richer feature maps, and introduce window-major feature map organization for improving the efficiency of interleaved attention computation. Experimental results demonstrate that the proposed approach is superior over existing real-time detectors, e.g., YOLO and its variants, on COCO and other benchmark datasets. Code and models are available at (https://github.com/Atten4Vis/LW-DETR).
研究の動機と目的
- CNN ベースの YOLO モデルの代替として、トランスフォーマーを用いたバックボーンを使ったリアルタイム物体検出の動機付け。
- 効率性を狙い、ViT エンコーダ、プロジェクター、DETR デコーダを組み合わせたシンプルな LW-DETR アーキテクチャを提案。
- 高度な損失関数、事前学習、交互アテンション、およびウィンドウ主導の特徴マップを用いて訓練と推論の効率を向上。
- COCO およびドメイン横断ベンチマークで最先端のリアルタイム性能を実証。
提案手法
- 畳み込みプロジェクターを介して DETR デコーダに接続されたプレーンな ViT エンコーダを使用。
- マルチレベルのエンコーダ特徴を集約し、より豊かな表現を形成。
- エンコーダの複雑さを低減するため、交互配置のウィンドウとグローバルアテンションを採用。
- 効率的な交互アテンションを可能にするウィンドウ主導の特徴マップ組織を実装。
- IoU 対応の分類損失と標準的な DETR 風 bbox 損失で訓練し、さらに Objects365 の事前学習を活用。
- スケールに合わせたバックボーン、プロジェクター構成、デコーダーヘッドを備えた LW-DETR の五つの variant(tiny, small, medium, large, xlarge)を実装。
- コンテンツクエリと空間クエリを組み合わせた混合クエリ選択を用いてオブジェクトクエリを形成。
実験結果
リサーチクエスチョン
- RQ1軽量な DETR ベース検出器は、速度と精度の両面で最先端のリアルタイムCNN検 detectors(例:YOLO 系)に匹敵するか、あるいは上回るか?
- RQ2訓練強化(IoU 対応損失、より多くの監督、事前学習)とアーキテクチャの単純化(交互ウィンドウ/グローバルアテンション、ウィンドウ主導マップ)が、リアルタイム DETR の性能にどう影響するか?
- RQ3マルチスケール特徴の集約と異なるプロジェクター構成が検出品質とレイテンシに与える影響は?
- RQ4Objects365 のような大規模データセットでの事前学習は、DETR ベースのリアルタイム検出器を CNN ベースの対抗モデルより上回らせるのに不可欠か?
主な発見
| 手法 | 事前学習 | パラメータ数 (M) | #Params (M) | FLOPs (G) | FLOPs (G) | モデル遅延 (ms) | 公式実装(ms) | mAP (COCO) | Total Latency (ms) | mAP (COCO) |
|---|---|---|---|---|---|---|---|---|---|---|
| RTMDet-tiny | 4.9 | 8.1 | 2.1 | 7.4 | 41.0 | 2.4 | 40.8 | |||
| RTMDet-tiny | ✓ | 4.9 | 8.1 | 2.1 | 7.4 | 41.7 | 2.4 | 41.5 | ||
| YOLOv8n | 3.2 | 4.4 | 1.5 | 6.2 | 37.4 | 1.6 | 37.3 | |||
| YOLOv8n | ✓ | 3.2 | 4.4 | 1.5 | 6.2 | 37.6 | 1.6 | 37.5 | ||
| LW-DETR- tiny | ✓ | 12.1 | 11.2 | 2.0 | 2.0 | 42.6 | - | - | ||
| RTMDet-s | 8.9 | 14.8 | 2.8 | 7.9 | 44.6 | 2.9 | 44.4 | |||
| RTMDet-s | ✓ | 8.9 | 14.8 | 2.8 | 7.9 | 44.9 | 2.9 | 44.7 | ||
| YOLOv8s | 11.2 | 14.4 | 2.6 | 7.0 | 45.0 | 2.7 | 44.8 | |||
| YOLOv8s | ✓ | 11.2 | 14.4 | 2.6 | 7.0 | 45.2 | 2.7 | 45.1 | ||
| YOLO-NAS-s | ✓ | 19.0 | 17.6 | 2.8 | 4.7 | 47.6 | 2.9 | 47.3 | ||
| LW-DETR- small | ✓ | 14.6 | 16.6 | 2.9 | 2.9 | 48.0 | - | - | ||
| RTMDet-m | 24.7 | 39.2 | 6.2 | 10.8 | 49.3 | 6.5 | 49.1 | |||
| RTMDet-m | ✓ | 24.7 | 39.2 | 6.2 | 10.8 | 49.7 | 6.5 | 49.5 | ||
| YOLOv8m | 25.6 | 39.7 | 5.9 | 10.1 | 50.3 | 6.0 | 50.0 | |||
| YOLOv8m | ✓ | 25.6 | 39.7 | 5.9 | 10.1 | 50.6 | 6.0 | 50.4 | ||
| YOLO-NAS-m | ✓ | 51.1 | 48.0 | 5.5 | 7.8 | 51.6 | 5.7 | 51.1 | ||
| LW-DETR- medium | ✓ | 28.2 | 42.8 | 5.6 | 5.6 | 52.5 | - | - | ||
| RTMDet-l | 52.3 | 80.1 | 10.3 | 14.9 | 51.4 | 10.5 | 51.2 | |||
| RTMDet-l | ✓ | 52.3 | 80.1 | 10.3 | 14.9 | 52.4 | 10.5 | 52.2 | ||
| YOLOv8l | 43.7 | 82.7 | 9.3 | 13.2 | 53.0 | 9.4 | 52.5 | |||
| YOLOv8l | ✓ | 43.7 | 82.7 | 9.3 | 13.2 | 53.3 | 9.4 | 53.0 | ||
| YOLO-NAS-l | ✓ | 66.9 | 65.5 | 7.5 | 8.8 | 52.3 | 7.6 | 51.9 | ||
| LW-DETR- large | ✓ | 46.8 | 71.6 | 8.8 | 8.8 | 56.1 | - | - | ||
| RTMDet-x | 94.9 | 141.7 | 18.4 | 22.8 | 52.8 | 18.8 | 52.5 | |||
| RTMDet-x | ✓ | 94.9 | 141.7 | 18.4 | 22.8 | 54.0 | 18.8 | 53.5 | ||
| YOLOv8x | 68.2 | 129.3 | 14.8 | 19.1 | 54.0 | 15.0 | 53.5 | |||
| YOLOv8x | ✓ | 68.2 | 129.3 | 14.8 | 19.1 | 54.5 | 15.0 | 54.1 | ||
| LW-DETR- xlarge | ✓ | 118.0 | 174.2 | 19.1 | 19.1 | 58.3 | - | - |
- LW-DETR tiny は T4 GPU で 500 FPS、42.6 mAP を達成。
- LW-DETR small は 48.0 mAP で 340 FPS 超え。
- LW-DETR medium は 52.5 mAP で 178 FPS 超え。
- LW-DETR large は 56.1 mAP を 113 FPS で、xlarge は 58.3 mAP を 52 FPS で達成。
- LW-DETR は COCO val2017 で YoLOv8, RTMDet, YOLO-NAS を一貫して上回り、より大きなモデルで特に顕著な向上を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。