Skip to main content
QUICK REVIEW

[論文レビュー] Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

Li Xiang, Wenhai Wang|arXiv (Cornell University)|Jun 8, 2020
Advanced Neural Network Applications被引用数 764
ひとこと要約

本論文は Generalized Focal Loss (GFL) を提案し、 localization quality と classification を統合し、 bounding boxes を任意の分布としてモデル化する。効率的な推論で COCO の最先端結果を達成する。

ABSTRACT

One-stage detector basically formulates object detection as dense classification and localization. The classification is usually optimized by Focal Loss and the box location is commonly learned under Dirac delta distribution. A recent trend for one-stage detectors is to introduce an individual prediction branch to estimate the quality of localization, where the predicted quality facilitates the classification to improve detection performance. This paper delves into the representations of the above three fundamental elements: quality estimation, classification and localization. Two problems are discovered in existing practices, including (1) the inconsistent usage of the quality estimation and classification between training and inference and (2) the inflexible Dirac delta distribution for localization when there is ambiguity and uncertainty in complex scenes. To address the problems, we design new representations for these elements. Specifically, we merge the quality estimation into the class prediction vector to form a joint representation of localization quality and classification, and use a vector to represent arbitrary distribution of box locations. The improved representations eliminate the inconsistency risk and accurately depict the flexible distribution in real data, but contain continuous labels, which is beyond the scope of Focal Loss. We then propose Generalized Focal Loss (GFL) that generalizes Focal Loss from its discrete form to the continuous version for successful optimization. On COCO test-dev, GFL achieves 45.0\\% AP using ResNet-101 backbone, surpassing state-of-the-art SAPD (43.5\\%) and ATSS (43.6\\%) with higher or comparable inference speed, under the same backbone and training settings. Notably, our best model can achieve a single-model single-scale AP of 48.2\\%, at 10 FPS on a single 2080Ti GPU. Code and models are available at https://github.com/implus/GFocal.

研究の動機と目的

  • training と testing の間での localization quality estimation と classification の不一致を one-stage 検出器で解消する。
  • training と inference を統一するために localization quality とクラススコアの共同表現を提案する。
  • 不確実性を捉えるために bounding boxes を Dirac delta や単純な Gaussian ではなく柔軟な分布としてモデル化する。
  • Quality Focal Loss (QFL) を提案し、連続ターゲット y ∈ [0,1] とモジュレーション因子 |y - p|^β を用いて、質の推定と分布学習の両方を最適化する Generalized Focal Loss (GFL) を開発する。
  • GFL を ATSS/ResNet バックボーンで実装し、推論のオーバーヘッドを実質ゼロに近づけつつ、COCO で最先端の性能を示す。

提案手法

  • ground-truth のカテゴリインデックスが局在品質(IoU)値を保持する、局所化 と 分類の結合スコアを作り出す joint classification-IoU 表現を導入する。
  • 連続ターゲットを用いて Focal Loss を拡張し、連続ターゲット y ∈ [0,1] とモデュレーション因子 |y - p|^β を用いる Quality Focal Loss (QFL) を提案する。
  • ボックス位置を離散化された空間上の General distribution P(x) として表現し、softmax で予測することで学習可能な柔軟な回帰ターゲットを実現する。
  • Target 度近くの確率質量を奨励する Distribution Focal Loss (DFL) を導入し、学習を target の座標 y_i および y_{i+1} の周辺に集中させる。
  • QFL と DFL を Generalized Focal Loss (GFL) に組み合わせ、L = L_QFL + L_DFL + L_B の結合損失を、特徴ピラミッド上の密集位置で学習する。
  • 標準的な one-stage 検出器との互換性を示し、推論オーバーヘッドはごくわずかであることを示す。

実験結果

リサーチクエスチョン

  • RQ1one-stage 検出器において localization quality と分類を統一することで、訓練–推論の不整合を低減できるか?
  • RQ2柔軟で学習可能な分布として bounding boxes をモデリングすることは、現実的な曖昧さの下で局在精度を向上させるか?
  • RQ3Focal Loss を連続ターゲットへ一般化して、質の推定と分布学習の両方を最適化できるか?
  • RQ4QFL および DFL を共同で適用した場合、基準モデルや他の最先端検出器と比較して COCO AP にどのような影響があるか?
  • RQ5提案された GFL アプローチは実用展開に十分な計算効率を持つか?

主な発見

  • GFL は joint classification-IoU 表現により、COCO のアブレーション全体で baselines よりも高い AP を達成(同じ backbone および訓練設定で SAPD や ATSS を上回る例がある)。
  • QFL はクラスごとの連続的な品質推定を効果的に学習し、局在品質の相関と全体的な検出性能を改善する。
  • DFL は柔軟なボックス分布を学習し、ターゲット座標の周辺に確率質量を集中させ、特に不確実性の下でボックスの精度を向上させる。
  • QFL と DFL の共同使用は直交的な利得をもたらし、強力な ATSS ベースラインより約 1 ポイント AP の改善を実現し、推論オーバーヘッドはごくわずか。
  • GFL は ResNet-101 バックボーンで COCO test-dev で 45.0% AP、単一モデル単一スケール AP が 10 FPS で 48.2% を達成し、複数の従来手法を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。