Skip to main content
QUICK REVIEW

[論文レビュー] Bag of Freebies for Training Object Detection Neural Networks

Zhi Zhang, Tong He|arXiv (Cornell University)|Feb 11, 2019
Advanced Neural Network Applications参考文献 21被引用数 146
ひとこと要約

本論文は推論に影響を与えないトレーニング時のボーナス手法を物体検出に適用可能かを研究し、視覚的に一貫した mixup、ラベル平滑化、コサイン学習率、同期 BN、ランダム形状といった手法を積み重ねることで、VOC/COCOで YOLOv3 および Faster R-CNN において絶対的な mAP を最大5%改善することを示している。

ABSTRACT

Training heuristics greatly improve various image classification model accuracies~\cite{he2018bag}. Object detection models, however, have more complex neural network structures and optimization targets. The training strategies and pipelines dramatically vary among different models. In this works, we explore training tweaks that apply to various models including Faster R-CNN and YOLOv3. These tweaks do not change the model architectures, therefore, the inference costs remain the same. Our empirical results demonstrate that, however, these freebies can improve up to 5% absolute precision compared to state-of-the-art baselines.

研究の動機と目的

  • Architecture に依存せず、推論コストを増やさずに物体検出性能を向上させる一般的なトリックを特定する。
  • Pascal VOC および MS COCO で YOLOv3 と Faster R-CNN に対する各トレーニング調整の影響を定量化する。
  • これらのコツを単一・マルチステージ検出器へ適用するための一貫したガイドラインを開発する。

提案手法

  • 物体検出向けに空間整列を保持する視覚的に一貫した image mixup を提案する。
  • 学習率スケジューリング、ラベル平滑化、同期 BatchNorm、データ前処理を含むトレーニング時の調整を評価する。
  • 単一段・多段検出器での付加的な利得を評価するため、これらの手法を段階的に積み重ねる。
  • 定まった入力スケールと標準的な NMS を用いて、Pascal VOC と COCO で YOLOv3 および Faster-RCNN のベンチマークを測定する。

実験結果

リサーチクエスチョン

  • RQ1トレーニング時のフリービーは異なる物体検出パイプライン(単一段 vs. 多段)に一般化するか。
  • RQ2mixup、ラベル平滑化、コサイン LR スケジューリング、同期 BN などの個別および総合的な影響は mAP にどのように反映されるか。
  • RQ3これらのトレーニング手法はネットワークアーキテクチャを変更せずに最先端ベースラインとの差を縮められるか。
  • RQ4VOC と COCO、異なる入力解像度で利得は一貫しているか。

主な発見

  • ベースラインのままではなくアーキテクチャを変更せずに最大で5% absolute mAPの改善。
  • 物体検出向けに特化した mixup は他の手法と組み合わせた場合に測定可能な利得を生む(例: VOC で他の手法と積み重ねた場合に累積で 3.43% など)。
  • データ拡張だけで単一段検出器の利得の大部分を占める(COCO 結果で約16%)。
  • 同期 BatchNorm、ランダムな学習形状、コサイン LR スケジュール、クラスラベル平滑化、そして mixup が YOLOv3 と Faster-RCNN の両方で一貫した改善を生む。
  • COCO では BoF が YOLOv3 を最大で絶対 mAP 5.4% 改善し、入力解像度 320–608 の範囲で Faster-RCNN を全体で約1–2% 向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。