[論文レビュー] DN-DETR: Accelerate DETR Training by Introducing Query DeNoising
DN-DETRはノイズのある真実ボックスをデコーダ入力の補助として使用するデノイジングタスクを導入し、二部マッチングを安定化させ、DETR風モデルの学習を加速させ、より速い収束とより高い精度を実現します。既存のDETR系バリアントには最小限のコード変更で組み込むことができます。
We present in this paper a novel denoising training method to speedup DETR (DEtection TRansformer) training and offer a deepened understanding of the slow convergence issue of DETR-like methods. We show that the slow convergence results from the instability of bipartite graph matching which causes inconsistent optimization goals in early training stages. To address this issue, except for the Hungarian loss, our method additionally feeds ground-truth bounding boxes with noises into Transformer decoder and trains the model to reconstruct the original boxes, which effectively reduces the bipartite graph matching difficulty and leads to a faster convergence. Our method is universal and can be easily plugged into any DETR-like methods by adding dozens of lines of code to achieve a remarkable improvement. As a result, our DN-DETR results in a remarkable improvement ($+1.9$AP) under the same setting and achieves the best result (AP $43.4$ and $48.6$ with $12$ and $50$ epochs of training respectively) among DETR-like methods with ResNet-$50$ backbone. Compared with the baseline under the same setting, DN-DETR achieves comparable performance with $50\%$ training epochs. Code is available at \url{https://github.com/FengLi-ust/DN-DETR}.
研究の動機と目的
- DETRモデルが二部グラフマッチングの不安定性のために収束が遅くなる理由を理解する。
- 最適化を安定化させるため、ノイズを付けたGTボックスを用いたデノイジング学習の補助タスクを提案する。
- デノイジングがDETR系のバリアントや関連モデル全体の収束を速めることを示す。
- ノイズ、ラベル埋め込み、アテンションマスクの影響を解析するアブレーションを提供する。
提案手法
- ノイズ付きGTボックスとラベルを追加のデコーダ入力として取り込むデノイジング学習ブランチを導入する。
- デコーダクエリを、デノイジング(ノイズ付きGT)パートと従来のマッチング(学習可能なアンカー)パートの2つの部分として定式化する。
- 複数のデノイジンググループをアテンションマスクとともに用い、グループ間およびデノイジングとマッチングパート間の情報漏洩を防ぐ。
- デノイジングブランチで、標準のHungarian損失とともに再構成損失(ボックスにはl1とGIoU、ラベルには focal loss)を適用する。
- デコーダ埋め込みを、デノイジング対マッチングタスクを区別する指示子を追加したラベル埋め込みとして表現する。
- 一般性を示すために、デノイジングをDeformable DETR、Faster R-CNN、Mask2Formerへ拡張することをオプションとして提案する。
実験結果
リサーチクエスチョン
- RQ1デノイジング補助タスクは、DETRにおける不安定な二部マッチングを安定化させ、学習を加速できるか?
- RQ2ノイズ付きGTボックス(およびラベル)をデノイジングクエリとして追加することは、収束速度と最終精度にどのような影響を与えるか?
- RQ3デノイジング学習は、異なるDETR風アーキテクチャや従来のCNN検出器にも一般化するか?
- RQ4ノイズの種類、ラベル埋め込み、およびアテンションマスキングが性能に与える寄与は何か?
- RQ5性能を維持または向上させつつ、トレーニングエポックをどれくらい削減できるか?
主な発見
- DN-DETRは訓練中のHungarianマッチングの不安定性を低減する。
- デノイジングタスクは、収束を速め、APを改善する(特に12エポック設定で顕著)。
- 複数のノイズ付きGTグループとアテンションマスクを用いることで訓練の安定性を保ち、DETR系バリアントおよび非DETR検出器でも改善をもたらす。
- DN-DETRはDAB-DETR、Deformable DETR、Anchor DETR、Vanilla DETR、Faster R-CNN、Mask2Formerに適用した場合に改善を示し、適用範囲の広さを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。