[論文レビュー] Task-Specific Context Decoupling for Object Detection
本論文は TSCODE を提案します。分類と局在のために特徴文脈を分離するプラグアンドプレイのヘッドで、タスク固有の入力を供給することにより、追加コストを最小限に抑えつつ検出性能を向上させます。
Classification and localization are two main sub-tasks in object detection. Nonetheless, these two tasks have inconsistent preferences for feature context, i.e., localization expects more boundary-aware features to accurately regress the bounding box, while more semantic context is preferred for object classification. Exsiting methods usually leverage disentangled heads to learn different feature context for each task. However, the heads are still applied on the same input features, which leads to an imperfect balance between classifcation and localization. In this work, we propose a novel Task-Specific COntext DEcoupling (TSCODE) head which further disentangles the feature encoding for two tasks. For classification, we generate spatially-coarse but semantically-strong feature encoding. For localization, we provide high-resolution feature map containing more edge information to better regress object boundaries. TSCODE is plug-and-play and can be easily incorperated into existing detection pipelines. Extensive experiments demonstrate that our method stably improves different detectors by over 1.0 AP with less computational cost. Our code and models will be publicly released.
研究の動機と目的
- オブジェクト検出器における分類と局在の文脈好みの不一致を動機づける。
- 分類と局在にタスク固有の入力特徴を提供するデカップルドヘッドを提案する。
- 分類のための効率的な Semantic Context Encoding(SCE)を設計し、局在のための Detail-Preserving Encoding(DPE)を設計する。
- 主流の検出器に渡ってプラグアンドプレー適用性を示し、一貫した改善を達成する。
提案手法
- 分類と局在のブランチに共有された P l の代わりに、タスク固有の入力 G cls l および G loc l を与えて特徴エンコードをデカップリングする。
- Semantic Context Encoding(SCE)は、ダウンサンプリングされた P l と上位レベルの P l+1 から G cls l を構築し、分類に対して空間的には粗いが意味的には豊かな特徴を提供する。
- Detail-Preserving Encoding(DPE)は、P l-1、P l、P l+1 を軽量な U-ネット風のフュージョンで結合し、局在化のための高解像度のエッジ豊かな特徴を提供する。
- 分類ヘッドは G cls l からスコアを予測するために512チャネルの2層設計を用い、解像度を回復してクラスごとのスコアを予測するリアレンジを行う。
- 局在ヘッドは P l-1、P l、P l+1 の3段階の特徴フュージョンを介して計算される G loc l を用いて境界ボックスを回帰する。
- 全体の損失は G cls l に対する Lcls および G loc l に対する Lloc を組み合わせたもので、デカップルド入力はタスク干渉を低減する。
![Figure 1 : Top: Inference from original FCOS [ 43 ] . Bottom: Inference from FCOS with our TSCODE. Results are shown before NMS. The bounding box that has the highest IoU with the ground truth is shown in green, while the top-3 bounding-boxes with the highest classification scores are marked in othe](https://ar5iv.labs.arxiv.org/html/2303.01047/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1分類と局在の相反するニーズに対応するため、特徴コンテキストをどのように効果的にデカップリングできるか。
- RQ2タスク固有の入力が従来の共有特徴デカップリングヘッドよりも低い計算コストでより正確な分類と局在を実現できるか。
- RQ3TSCODE はさまざまなワンステージ検出器とバックボーンに一般化できるか。
- RQ4SCE および DPE の要素が検出性能に及ぼす定量的影響はどの程度か。
- RQ5TSCODE は既存の検出パイプラインにプラグアンドプレーで適用できるか。
主な発見
- TSCODE は FCOS、ATSS、GFL のベースラインで一貫して AP を改善(例:アブレーションで約 1.3–1.4 ポイントの AP 増加)。
- SCE および DPE は個別に性能を向上させ、組み合わせると個々の効果の和より大きなゲインを得られる。
- TSCODE は計算コストが低いか同程度で AP と AR を向上させ、さまざまな物体サイズでの訓練収束を早める。
- COCO minival に対する複数の検出器へ適用した場合、ベースラインに応じて約 0.5–1.4 AP ポイントのゲインを示す。
- TSCODE は ResNet-101、ResNeXt-101-32x4d、DCN 変種などのバックボーンと組み合わせると、単一モデルの COCO test-dev で最先端の結果を達成し、いくつかの最近の検出器を上回る。
![Figure 2 : An illustration of ours novel Task-Specific Context Decoupling (TSCODE). Detector head at the $l^{th}$ pyramid level receive feature maps $P_{l+1}$ , $P_{l}$ and $P_{l-1}$ from FPN [ 25 ] , TSCODE then further disentangles the feature encoding for classification and localization tasks.](https://ar5iv.labs.arxiv.org/html/2303.01047/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。