[論文レビュー] Libra R-CNN: Towards Balanced Learning for Object Detection
Libra R-CNNはIoUバランス採取、バランスされた特徴ピラミッド、バランスL1損失を導入して学習時の不均衡に対処し、ベースラインに対してCOCOのAPを改善する。
Compared with model architectures, the training process, which is also crucial to the success of detectors, has received relatively less attention in object detection. In this work, we carefully revisit the standard training practice of detectors, and find that the detection performance is often limited by the imbalance during the training process, which generally consists in three levels - sample level, feature level, and objective level. To mitigate the adverse effects caused thereby, we propose Libra R-CNN, a simple but effective framework towards balanced learning for object detection. It integrates three novel components: IoU-balanced sampling, balanced feature pyramid, and balanced L1 loss, respectively for reducing the imbalance at sample, feature, and objective level. Benefitted from the overall balanced design, Libra R-CNN significantly improves the detection performance. Without bells and whistles, it achieves 2.5 points and 2.0 points higher Average Precision (AP) than FPN Faster R-CNN and RetinaNet respectively on MSCOCO.
研究の動機と目的
- サンプル・特徴・目的レベルで物体検出器における学習時の不均衡を特定・定量化する。
- これらの不均衡を緩和するためのバランスのとれた学習フレームワーク(IoUバランス採取、バランス特徴ピラミッド、バランスL1損失)を提案する。
- 標準バックボーンを用いた二段階および一段階検出器でMS COCOにおける顕著なAP向上を実証する。
- 提案された各成分が組み合わせることで局所化と認識精度を相乗的に向上させることを示す。
提案手法
- IoUバランス採取を追加コストなしにIoU分布に基づいて難易度の高い negatives/positivesを優先する。
- 解像度間の情報を均等化してマルチレベル特徴を統合するバランス特徴ピラミッド。
- 重要な回帰勾配を促進し、分類と局所化の結合タスクにおける外れ値の影響を抑えるバランスL1損失。
実験結果
リサーチクエスチョン
- RQ1サンプル・特徴・目的レベル全体で現在の物体検出器を制限する学習時の不均衡は何か?
- RQ2複雑なアーキテクチャ変更なしに、意図的にバランスのとれた学習フレームワークは局所化と認識の両方を改善できるか?
- RQ3IoUバランス採取、バランス特徴ピラミッド、バランスL1損失を組み合わせた場合、補完的な改善をもたらすか?
- RQ4これらの成分はバックボーンの選択にかかわらずMS COCOなどの標準ベンチマークでどのような性能影響を与えるか?
主な発見
| 手法 | バックボーン | スケジュール | AP | AP50 | AP75 | AP_S | AP_M | AP_L |
|---|---|---|---|---|---|---|---|---|
| YOLOv2 | DarkNet-19 | - | 21.6 | 44.0 | 19.2 | 5.0 | 22.4 | 35.5 |
| SSD512 | ResNet-101 | - | 31.2 | 50.4 | 33.3 | 10.2 | 34.5 | 49.8 |
| RetinaNet | ResNet-101-FPN | - | 39.1 | 59.1 | 42.3 | 21.8 | 42.7 | 50.2 |
| Faster R-CNN | ResNet-101-FPN | - | 36.2 | 59.1 | 39.0 | 18.2 | 39.0 | 48.2 |
| Deformable R-FCN | Inception-ResNet-v2 | - | 37.5 | 58.0 | 40.8 | 19.4 | 40.1 | 52.5 |
| Mask R-CNN | ResNet-101-FPN | - | 38.2 | 60.3 | 41.7 | 20.1 | 41.1 | 50.2 |
| Faster R-CNN* | ResNet-50-FPN | 1x | 36.2 | 58.5 | 38.9 | 21.0 | 38.9 | 45.3 |
| Faster R-CNN* | ResNet-101-FPN | 1x | 38.8 | 60.9 | 42.1 | 22.6 | 42.4 | 48.5 |
| Faster R-CNN* | ResNet-101-FPN | 2x | 39.7 | 61.3 | 43.4 | 22.1 | 43.1 | 50.3 |
| Faster R-CNN* | ResNeXt-101-FPN | 1x | 41.9 | 63.9 | 45.9 | 25.0 | 45.3 | 52.3 |
| RetinaNet* | ResNet-50-FPN | 1x | 35.8 | 55.3 | 38.6 | 20.0 | 39.0 | 45.1 |
| Libra R-CNN | ResNet-50-FPN | 1x | 38.7 | 59.9 | 42.0 | 22.5 | 41.1 | 48.7 |
| Libra R-CNN | ResNet-101-FPN | 1x | 40.3 | 61.3 | 43.9 | 22.9 | 43.1 | 51.0 |
| Libra R-CNN | ResNet-101-FPN | 2x | 41.1 | 62.1 | 44.7 | 23.4 | 43.7 | 52.5 |
| Libra R-CNN | ResNeXt-101-FPN | 1x | 43.0 | 64.0 | 47.0 | 25.3 | 45.6 | 54.6 |
| Libra RetinaNet | ResNet-50-FPN | 1x | 37.8 | 56.9 | 40.5 | 21.2 | 40.9 | 47.7 |
- Libra R-CNNはCOCOでベースラインより顕著なAP向上を達成し、例としてResNet-50を用いたFPN Faster R-CNNに対して2.5 AP、RetinaNetに対して2.0 AP。
- IoUバランス採用はval-2017のベースラインでAPを最大約0.9ポイント改善。
- バランス特徴ピラミッドは小/中/大オブジェクトすべてで一貫した利得をもたらし、PAFPNを補完する。
- バランスL1損失は局所化を強化し、特にAP75で、インライヤとアウトライヤ間の勾配をバランスさせることで改善する。
- より強力なバックボーン(例: ResNeXt-101-FPN)でLibra R-CNNは43.0 APに達し、いくつかの最先端検出器を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。