Skip to main content
QUICK REVIEW

[論文レビュー] End-to-End Object Detection with Adaptive Clustering Transformer

Minghang Zheng, Peng Gao|arXiv (Cornell University)|Nov 18, 2020
Advanced Image and Video Retrieval Techniques参考文献 47被引用数 117
ひとこと要約

この論文は Adaptive Clustering Transformer (ACT) を DETR のエンコーダーアテンションの置換えとして導入し、E2LSH による適応的クラスタリングで計算を削減し、さらに Multi-Task Knowledge Distillation (MTKD) で性能を向上させる。

ABSTRACT

End-to-end Object Detection with Transformer (DETR)proposes to perform object detection with Transformer and achieve comparable performance with two-stage object detection like Faster-RCNN. However, DETR needs huge computational resources for training and inference due to the high-resolution spatial input. In this paper, a novel variant of transformer named Adaptive Clustering Transformer(ACT) has been proposed to reduce the computation cost for high-resolution input. ACT cluster the query features adaptively using Locality Sensitive Hashing (LSH) and ap-proximate the query-key interaction using the prototype-key interaction. ACT can reduce the quadratic O(N2) complexity inside self-attention into O(NK) where K is the number of prototypes in each layer. ACT can be a drop-in module replacing the original self-attention module without any training. ACT achieves a good balance between accuracy and computation cost (FLOPs). The code is available as supplementary for the ease of experiment replication and verification. Code is released at \url{https://github.com/gaopengcuhk/SMCA-DETR/}

研究の動機と目的

  • DETR の高解像度入力での高い計算コストを抑えつつ、エンドツーエンドのセット予測を維持する動機付け。
  • ACT を提案し、エンコーダ自己注意を適応的クラスタリングに置換して二乗計算量をほぼ線形に削減する。
  • ACT が retraining なしで DETR とのドロップインモジュールとして互換性があることを示し、さらなる精度向上のために MTKD を探る。
  • FLOPs の削減と COCO 2017 での AP のトレードオフを定量化し、実践的な使用を導くアブレーションを提供する。

提案手法

  • 各エンコーダ層ごとにプロトタイプへクエリを適応的にクラスタリングするために Locality Sensitive Hashing (LSH)、特に Exact Euclidean LSH (E2LSH) を使用する。
  • プロトタイプとキーとのみ間でアテンションを計算し、次にプロトタイプの更新をメンバークエリにブロードキャストして、計算量を O(NMDk+NMDv) から O(NLDK+CMDK+CMDV) に削減する。
  • マルチラウンド LSH (ラウンド L) を通じて特徴分布に基づきレイヤーごとにプロトタイプ数を動的に決定する。
  • 任意で Multi-Task Knowledge Distillation (MTKD) を適用して ACT と完全な DETR の予測を整合させ、シームレスな切り替えと精度向上を可能にする。
  • 訓練目的関数 L = L_pred + L_KD を提供し、ACT から DETR へのボックス回帰を蒸留してより良い収束を可能にする。
  • retraining なしで DETR のドロップインとして ACT を評価し、MTKD での改善を定量化する。

実験結果

リサーチクエスチョン

  • RQ1ACT は retraining なしで DETR のエンコーダ自己注意計算を削減しつつ検出性能を維持できるか?
  • RQ2LSH による適応的クラスタリングはエンコーダ層や物体サイズを跨いで AP と FLOPs にどのような影響を与えるか?
  • RQ3Multi-Task Knowledge Distillation (MTKD) は ACT と完全な DETR 之间の性能差をさらに縮めるか?
  • RQ4COCO 2017 で ACT と DETR および Faster R-CNN の現実的な FLOPs、スピード、メモリのトレードオフはどうか?

主な発見

  • ACT は DETR の FLOPs(バックボーンを除く)を 73.4 Gflops から 58.2 Gflops に削減し、ベース設定で AP の低下は 0.7% にとどまる。
  • MTKD は AP ギャップをさらに縮め、ACT(L=32)と比較して DETR に対する約 0.2% の AP 損失を達成。
  • L=32 の ACT は DETR-DC5 と同等の AP を達成し、大/中程度の物体で Faster RCNN-DC5 を上回りつつ、計算量は少なくなる。
  • ACT は実機の推論時およびメモリにおいて大幅な節約を実現(例:GTX TITAN X 上で、画像あたりの時間が速く、ピークメモリが低い)。
  • 適応的クラスタリングは意味的に類似したクエリをグルーピングすることで冗長なアテンションを一貫して削減し、深いエンコーダ層では特徴の冗長性のためプロトタイプ数が減少する。
  • K-means クラスタリングと比較して、ACT は画像ごとの特徴分布やエンコーダ層への適応性が高く、同等の FLOPs でより高い精度を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。