QUICK REVIEW

[論文レビュー] Dynamic R-CNN: Towards High Quality Object Detection via Dynamic Training

Hongkai Zhang, Hong Chang|arXiv (Cornell University)|Apr 13, 2020

Advanced Neural Network Applications参考文献 50被引用数 29

ひとこと要約

Dynamic R-CNN は、2段階オブジェクト検出器における提案の品質の変化をよりよく活用するため、トレーニング中にラベル割り当てのしきい値とSmoothL1損失のパラメータを動的に調整する動的トレーニング戦略を提案する。提案の統計に基づいて、陽性サンプル割り当てのためのIoUしきい値とSmoothL1損失におけるβパラメータを動的にチューニングすることで、追加の推論コストなしにMS COCOで1.9%高いAPと5.5%高いAP₉₀を達成する。

ABSTRACT

Although two-stage object detectors have continuously advanced the state-of-the-art performance in recent years, the training process itself is far from crystal. In this work, we first point out the inconsistency problem between the fixed network settings and the dynamic training procedure, which greatly affects the performance. For example, the fixed label assignment strategy and regression loss function cannot fit the distribution change of proposals and thus are harmful to training high quality detectors. Consequently, we propose Dynamic R-CNN to adjust the label assignment criteria (IoU threshold) and the shape of regression loss function (parameters of SmoothL1 Loss) automatically based on the statistics of proposals during training. This dynamic design makes better use of the training samples and pushes the detector to fit more high quality samples. Specifically, our method improves upon ResNet-50-FPN baseline with 1.9% AP and 5.5% AP$_{90}$ on the MS COCO dataset with no extra overhead. Codes and models are available at https://github.com/hkzhang95/DynamicRCNN.

研究の動機と目的

トレーニング中の提案品質の動的変化と固定されたトレーニング設定の不一致を解消すること。
高品質な検出を妨げる固定されたIoUしきい値と静的回帰損失関数の限界を克服すること。
提案の分布の変化に応じてトレーニング基準を適応させることで、検出器のパフォーマンスを向上させること。
追加の推論コストを生じさせることなく、さまざまなバックボーンや検出フレームワークで一貫した向上を達成すること。

提案手法

動的ラベル割り当ては、現在の提案の分布に基づいて、陽性／陰性サンプル割り当てのためのIoUしきい値を調整する。具体的には、ある百分位数におけるIoUをしきい値として使用する。
動的SmoothL1損失は、回帰ラベルの分布に応じてSmoothL1損失関数のβパラメータを変更することで、小さな誤差勾配に適応的にフィットさせる。
トレーニングエポックごとに、提案および回帰ターゲットの累積統計を用いて、しきい値とβパラメータを更新する。
動的部品は、ネットワークアーキテクチャの変更や追加パラメータの追加なしに、標準的なFaster R-CNNパイプラインに統合されている。
分類と回帰の両ブランチに適用されており、検出器品質の共同向上を可能にしている。
さまざまなバックボーンや検出ヘッド（Mask R-CNN や Cascade R-CNN を含む）と互換性がある。

実験結果

リサーチクエスチョン

RQ1提案品質がトレーニング中に変化する際、固定されたIoUしきい値がラベル割り当てに与える影響は何か？
RQ2トレーニング中に回帰損失関数の形状を適応的に変更することで、高品質な提案に対する学習が向上するか？
RQ3推論コストを増加させずに、動的トレーニングがAPおよびAP₉₀にどれほど向上効果をもたらすか？
RQ4動的トレーニング戦略は、さまざまなバックボーンネットワークや検出フレームワークに一般化可能か？

主な発見

Dynamic R-CNN は、トレーニングや推論に追加コストをかけずに、MS COCOでResNet-50-FPNベースラインを1.9%高いAP、5.5%高いAP₉₀に向上させる。
ResNet-101-FPNを用いた場合、COCO test-devで42.0%のAPを達成し、マルチスケールトレーニングや可変畳み込みを追加することで50.1%のAPを達成する。
異なるバックボーン（ResNet-18, ResNet-50, ResNet-101）において、オブジェクト検出およびインスタンスセグメンテーションの両タスクで一貫した性能向上を示す。
Dynamic R-CNN は、COCO test-devセットにおいて、Cascade R-CNN や TridentNet、DCNv2 といった最先端の検出器を上回る性能を発揮する。
Mask R-CNN に対しても一般化が良く、テストしたすべてのバックボーン構成でボックスAPおよびセグメンテーションAPの両方を向上させる。
複数の検出ヘッドを避けることにより、Cascade Mask R-CNN より1.5倍速く、ResNet-18バックボーンでは1.74倍速くなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。