[論文レビュー] R-FCN: Object Detection via Region-based Fully Convolutional Networks
R-FCNは領域ベースの完全畳み込み物体検出を、位置感知スコアマップと位置感知RoIプーリング層とともに導入し、Faster R-CNNより高速で競争力のある精度を実現します。強力な画像分類器(ResNet など)を高速なエンドツーエンド検出器へと効果的に変換します。
We present region-based, fully convolutional networks for accurate and efficient object detection. In contrast to previous region-based detectors such as Fast/Faster R-CNN that apply a costly per-region subnetwork hundreds of times, our region-based detector is fully convolutional with almost all computation shared on the entire image. To achieve this goal, we propose position-sensitive score maps to address a dilemma between translation-invariance in image classification and translation-variance in object detection. Our method can thus naturally adopt fully convolutional image classifier backbones, such as the latest Residual Networks (ResNets), for object detection. We show competitive results on the PASCAL VOC datasets (e.g., 83.6% mAP on the 2007 set) with the 101-layer ResNet. Meanwhile, our result is achieved at a test-time speed of 170ms per image, 2.5-20x faster than the Faster R-CNN counterpart. Code is made publicly available at: https://github.com/daijifeng001/r-fcn
研究の動機と目的
- 物体検出における平移不変性と平移変動性のジレンマを動機づけ、解決する。
- 画像全体にほぼ全ての計算を共有する領域ベースの検出器を開発する。
- 空間情報をエンコードするために、位置感知スコアマップと位置感知RoIプーリング層を導入し、RoI後の畳み込み層を必要としない。
- エンドツーエンドの訓練可能性とResNetバックボーンとの互換性を実証し、効率的な検出を実現する。
提案手法
- 画像全体で共有される畳み込み特徴マップを持つ領域ベースの完全畳み込みネットワーク(R-FCN)を構築する。
- C個の対象カテゴリ用にk^2個の位置感知スコアマップのバンクを生成する(背景を+1)。
- RoIプーリングの各ビンが対応するスコアマップからプールする位置感知RoIプーリング層を使用し、RoI後の重み層を持たずに空間投票を可能にする。
- 分類と境界ボックス回帰の結合損失でエンドツーエンドに訓練し、必要に応じてオンライン難例マイニング(OHEM)を採用する。
- バックボーンのストライドを調整し、RoI解像度を高めるためにアトロス畳み込みを使用しつつRPNと計算を共有する。
- PASCAL VOCとMS COCOでFaster R-CNNおよび他の完全畳み込み手法と比較する。
実験結果
リサーチクエスチョン
- RQ1画像全体の計算をほぼ共有しつつ、完全畳み込みの領域ベース検出器が競争力のある精度を達成できるか。
- RQ2位置感知スコアマップのバンクを介して位置情報をエンコードすることは、RoIごとの計算を追加せずに局在化を改善するか。
- RQ3現代的なバックボーン(e.g., ResNet-101)でのR-FCNの性能は、標準的なベンチマーク全体でFaster R-CNNと比較してどうか。
- RQ4位置感知RoIプーリングと従来のRoIプーリングを使用した場合の速度と精度のトレードオフは何か。
- RQ5共有特徴マップとRPN統合を伴うエンドツーエンドの訓練は実現可能で効率的か。
主な発見
| 学習データ | mAP | テスト時間(秒/画像) |
|---|---|---|
| Faster R-CNN 07+12 | 76.4 | 0.42 |
| Faster R-CNN+++ 07+12+CO | 85.6 | 3.36 |
| R-FCN 07+12 | 79.5 | 0.17 |
| R-FCN ms train 07+12 | 80.5 | 0.17 |
| R-FCN ms train 07+12+COCO | 83.6 | 0.17 |
- ResNet-101を用いたR-FCNはVOC 2007テストで83.6% mAP、VOC 2012テストで82.0%を達成。
- ResNet-101使用時、R-FCNはK40 GPUで画像あたり170 ms、同じバックボーンを用いるFaster R-CNNより最大で2.5–20倍速い。
- 位置感知スコアマップとRoIプーリングにより、RoIプーリング後の全結合層を追加せずにエンドツーエンド訓練を可能にする。
- R-FCNの性能はFaster R-CNNと競合し、VOC07で300 RoIsで76.6% mAPを達成し、RoIあたりのコストは大幅に低い。
- MS COCOではResNet-101を用いたFaster R-CNNに近い性能を示し、多尺度テストで53.2 AP(IoU 0.5:0.95)を達成しつつ、はるかに高速。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。