[論文レビュー] Scale-Aware Trident Networks for Object Detection
TridentNetは共有重みと異なる受容野を持つ並列ブランチを介して尺度特化の特徴マップを導入し、尺度対応サンプリングで訓練され、追加パラメータなしで最先端の単一モデルCOCO結果を達成する(例:設定に応じて46.8–48.4 AP)。
Scale variation is one of the key challenges in object detection. In this work, we first present a controlled experiment to investigate the effect of receptive fields for scale variation in object detection. Based on the findings from the exploration experiments, we propose a novel Trident Network (TridentNet) aiming to generate scale-specific feature maps with a uniform representational power. We construct a parallel multi-branch architecture in which each branch shares the same transformation parameters but with different receptive fields. Then, we adopt a scale-aware training scheme to specialize each branch by sampling object instances of proper scales for training. As a bonus, a fast approximation version of TridentNet could achieve significant improvements without any additional parameters and computational cost compared with the vanilla detector. On the COCO dataset, our TridentNet with ResNet-101 backbone achieves state-of-the-art single-model results of 48.4 mAP. Codes are available at https://git.io/fj5vR.
研究の動機と目的
- 受容野のサイズがスケール変動下の検出にどのように影響するかを調査する。
- 共有重みを持つマルチブランチのTridentアーキテクチャを提案し、尺度特異的な特徴を作成する。
- オブジェクトのスケールに各ブランチを特化させるための尺度対応トレーニング手法を開発する。
- 追加パラメータなしで性能を維持する高速推論バリアントを提供する。
- COCOで最先端検出器と比較してTridentNetを評価し、アブレーションを分析する。
提案手法
- パラメータを共有しつつ異なる膨張率を使用するトライデントブロックに置換することで、特定のバックボーンブロックを置換してTridentNetsを構築する。
- ブランチ間で重みを共有し、総パラメータ数をベースラインと同等に保つ。
- 各ブランチの事前定義された有効範囲内のスケールに該当するRoIを選択して、尺度対応トレーニングを適用する。
- 推論時にはブランチの出力をNMSで統合して最終検出を生成する。主要ブランチを1つ使用する高速なTridentNet Fastバリアントを含む。
- 性能を保ちつつ推論に中間ブランチを使用する高速近似を提供する。
実験結果
リサーチクエスチョン
- RQ1受容野を変化させると、物体スケール全体で検出性能にどのような影響を与えるか?
- RQ2パラメータを増やさずにマルチブランチ尺度対応ネットワークがスケール全体で均質な表現力を達成できるか?
- RQ3重み共有と尺度対応トレーニングが、単一ブランチのベースラインと比較して全体の検出精度にどのような影響をもたらすか?
主な発見
| Backbone | Method | AP | AP50 | AP75 | APs | APm | APl |
|---|---|---|---|---|---|---|---|
| ResNet-101 | TridentNet | 40.6 | 61.8 | 23.0 | 45.5 | 55.9 | |
| ResNet-101-Deformable | TridentNet | 41.8 | 62.9 | 23.6 | 46.8 | 57.1 | |
| ResNet-101-Deformable | TridentNet* | 46.8 | 67.6 | 51.5 | 28.0 | 51.2 | 60.5 |
| ResNet-101-Deformable | TridentNet* + Image Pyramid | 48.4 | 69.7 | 53.5 | 31.8 | 51.3 | 60.3 |
- 受容野を拡大すると大きな物体には有効だが小さな物体には不利になるため、尺度対応のブランチ特化処理が動機づけられる。
- 共有重みと尺度対応トレーニングを備えた三ブランチのTridentNetは、ベースラインよりAPを改善(例:ResNet-101でCOCO minivalの37.9から40.6へ)。
- 変形可能バックボーンを用いるとTridentNetはより高いAPを達成(例:41.8対39.9のベースライン)。
- 3ブランチのTridentNetはCOCO test-devで46.6–46.8 AP、画像ピラミッドなし、単一モデル、ResNet-101-Deformable、TridentNet*で。画像ピラミッドありで48.4 AP。
- 主要ブランチを使用する高速推論バリアント(TridentNet Fast)は、追加パラメータや計算なしでほぼ同等の性能を得る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。