[論文レビュー] Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection
この論文は、アンカーベース検出器とアンカーフリー検出器の主要なギャップは positives/negatives の定義方法にあることを示し、Adaptive Training Sample Selection (ATSS) を導入して positives/negatives を自動的に決定し、両方のパラダイムを改善し、位置ごとに複数のアンカーを必要とする必要性を減らします。
Object detection has been dominated by anchor-based detectors for several years. Recently, anchor-free detectors have become popular due to the proposal of FPN and Focal Loss. In this paper, we first point out that the essential difference between anchor-based and anchor-free detection is actually how to define positive and negative training samples, which leads to the performance gap between them. If they adopt the same definition of positive and negative samples during training, there is no obvious difference in the final performance, no matter regressing from a box or a point. This shows that how to select positive and negative training samples is important for current object detectors. Then, we propose an Adaptive Training Sample Selection (ATSS) to automatically select positive and negative samples according to statistical characteristics of object. It significantly improves the performance of anchor-based and anchor-free detectors and bridges the gap between them. Finally, we discuss the necessity of tiling multiple anchors per location on the image to detect objects. Extensive experiments conducted on MS COCO support our aforementioned analysis and conclusions. With the newly introduced ATSS, we improve state-of-the-art detectors by a large margin to $50.7\%$ AP without introducing any overhead. The code is available at https://github.com/sfzhang15/ATSS
研究の動機と目的
- アンカーベースとアンカーフリー検 detectors のトレーニングサンプル定義における本質的な差異を同定する。
- 適応的でほぼハイパーパラメータフリーの方法で正/負のサンプルを選択する。
- 1地点あたりの複数のアンカーをタイル状に配置することが強い性能に必要であるかどうかを示す。
- ATSS が追加の計算コストなしで MS COCO 上のアンカーベースおよびアンカーフリー検出器の双方を改善することを示す。
提案手法
- Ground-truth ごとに候補正例を定義:各ピラミッドレベルで ground-truth の中心に最も近い k 個のアンカーを選択。
- 候補と ground-truth との IoU を計算し、mean m_g と std v_g を導出して適応閾値 t_g = m_g + v_g を設定。
- 正例は IoU >= t_g かつ中心が ground-truth ボックス内にある候補として選択;負例は残りのアンカー。
- RetinaNet (#A=1) に ATSS を適用して固定正サンプルルールを置換し、FCOS(ライト版とフル版)の選択を修正する。
- ATSS はただ一つのハイパーパラメータ k のみを必要とし、その設定に対して頑健であることを報告する。
実験結果
リサーチクエスチョン
- RQ1トレーニングにおいてアンカーベースとアンカーフリー検出器を差別化する本質的な要因は何か。
- RQ2適応的でサンプル中心の戦略は両方の検出器ファミリーの検出性能を向上させることができるか。
- RQ3強い性能のために1地点あたり複数のアンカーをタイル状に配置する必要があるか。
主な発見
| 手法 | AP | AP50 | AP75 | AP_S | AP_M | AP_L |
|---|---|---|---|---|---|---|
| RetinaNet (#A=1) | 37.0 | 55.1 | 39.9 | 21.4 | 41.2 | 48.6 |
| RetinaNet (#A=1) + ATSS | 39.3 | 57.5 | 42.8 | 24.3 | 43.3 | 51.3 |
| FCOS | 37.8 | 55.6 | 40.7 | 22.1 | 41.8 | 48.8 |
| FCOS + Center sampling | 38.6 | 57.4 | 41.4 | 22.3 | 42.5 | 49.8 |
| FCOS + ATSS | 39.2 | 57.3 | 42.4 | 22.7 | 43.1 | 51.5 |
- ATSS はオブジェクト統計に基づいて正例/負例を適応的に選択することでパフォーマンスギャップを埋め、オーバーヘッドなしで COCO の AP を向上させる。
- 固定サンプルルールを ATSS に置換すると RetinaNet (#A=1) の AP 指標全般で改善(例:AP が 37.0 から 39.3 に)を達成。
- FCOS では ATSS(フル版)がベースラインおよびライト版を上回る AP を一貫して改善し、フルアプローチを使用するほど大きな改善を示す。
- ATSS は ResNet-101 から DCN を備えた ResNeXt-64x4d-101 までのさまざまなバックボーンで最先端の結果を達成し、例として multi-scale テスト下で COCO test-dev で最大 50.7% AP。
- ATSS はアンカーサイズとアスペクト比の変化に対して頑健であり、位置あたり複数のアンカーを必要とする要件を減らす。
- ハイパーパラメータ k は広い範囲(おおよそ 7–17)で頑健であり、小さすぎる/大きすぎる値はリターンが低下または負になる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。