QUICK REVIEW

[論文レビュー] SNIPER: Efficient Multi-Scale Training

Bharat Singh, Mahyar Najibi|arXiv (Cornell University)|May 23, 2018

Advanced Neural Network Applications参考文献 39被引用数 55

ひとこと要約

SNIPER は ground-truth インスタンス周辺から抽出した小さく、マルチスケールのチップと選択されたネガティブを用いて検出器を訓練し、ほぼ full image pyramid の性能を、約3xの効率で、単一GPUで大規模バッチ訓練を実現します。

ABSTRACT

We present SNIPER, an algorithm for performing efficient multi-scale training in instance level visual recognition tasks. Instead of processing every pixel in an image pyramid, SNIPER processes context regions around ground-truth instances (referred to as chips) at the appropriate scale. For background sampling, these context-regions are generated using proposals extracted from a region proposal network trained with a short learning schedule. Hence, the number of chips generated per image during training adaptively changes based on the scene complexity. SNIPER only processes 30% more pixels compared to the commonly used single scale training at 800x1333 pixels on the COCO dataset. But, it also observes samples from extreme resolutions of the image pyramid, like 1400x2000 pixels. As SNIPER operates on resampled low resolution chips (512x512 pixels), it can have a batch size as large as 20 on a single GPU even with a ResNet-101 backbone. Therefore it can benefit from batch-normalization during training without the need for synchronizing batch-normalization statistics across GPUs. SNIPER brings training of instance level recognition tasks like object detection closer to the protocol for image classification and suggests that the commonly accepted guideline that it is important to train on high resolution images for instance level visual recognition tasks might not be correct. Our implementation based on Faster-RCNN with a ResNet-101 backbone obtains an mAP of 47.6% on the COCO dataset for bounding box detection and can process 5 images per second during inference with a single GPU. Code is available at https://github.com/MahyarNajibi/SNIPER/.

研究の動機と目的

インスタンスレベルの視覚認識タスクにおける効率的なマルチスケール訓練を動機づける。
ピクセル処理量を削減しながら性能を維持するチップベースのサンプリング戦略を提案する。
単一のGPUでバッチ正規化を用いた大規模バッチ訓練を可能にする。
検出器の性能に対するコンテキストとスケールの影響を調査する。
ResNet-101 バックボーンを用いた Faster-RCNN で COCO において競争力のある結果を示す。

提案手法

マルチスケールの画像ピラミッドを生成し、ground-truth オブジェクト周囲の512×512チップ（コンテキスト領域）（陽性チップ）をサンプリングする。
短時間スケジュールの Region Proposal Network (RPN) を用いて、誤検知となりやすい負のチップを選択する。
各チップ内の提案に対してスケール範囲でのフィルタリングを行わず、ラベルと bbox ターゲットを割り当てる。Faster-RCNN のようにチップベースの入力でエンドツーエンドで訓練する。
適切なスケールのチップで ground-truth ボックスを貪欲にカバーして、すべてのインスタンスが観察されるようにする。ラベル割り当てのために、チップ内の切り抜き ground-truth ボックスを保持する。
単一の GPU でバッチ正規化を可能にするため、低解像度の再サンプリング済みチップを用いた大規模ミニバッチで訓練する。
標準の COCO 指標を用いて評価し、3つのスケールで SNIP に対して比較する；リコールとネガティブマイニングの効果を分析する。

実験結果

リサーチクエスチョン

RQ1複数のスケールで小さくスケール適応したチップを用いた訓練が、フル画像ピラミッドのマルチスケール訓練の性能に匹敵するか？
RQ2ネガティブチップ採掘は計算コストを削減しつつ検出器の性能を改善するか？
RQ3SNIPER スタイルのチップを用いた場合、単一の GPU でのバッチ正規化を用いた大規模バッチ訓練は実現可能か？
RQ4チップベースのサンプリングによるコンテキストの削減は、オブジェクトサイズ全体でリコールと mAP にどう影響するか？

主な発見

手法	バックボーン	AP	AP50	AP75	APs	APm	APl
SNIPER	ResNet-101	46.1	67.0	51.6	29.6	48.9	58.1
SNIPER 2 scale	ResNet-101	43.3	63.7	48.6	27.1	44.7	56.1
SNIPER w/o negatives	ResNet-101	43.4	62.8	48.8	27.4	45.2	56.2

SNIPER は、単一スケール訓練より約30%多いピクセルを処理しつつ、フル画像ピラミッドのマルチスケール訓練と同等の性能を達成しますが、フルピラミッドよりは大幅に少ない。
ResNet-101 での SNIPER のネガティブチップマイニングを用いた訓練は、エンドツーエンド訓練で AP を 43.4 から 46.1 に改善します。
RPN のリコールは、ネガティブサンプリングの有無で安定しており、ネガティブチップマイニングだけでリコールが低下しないことを示します。
3スケール訓練（512、1.667×、3×）は、2スケール構成より良い性能を示し、マルチスケールサンプリングの利点を示しています。
COCO では、ResNet-101 を用いた SNIPER が 46.1 AP を達成し（OpenImages の事前学習とセグメンテーションヘッドを用いると 47.6%）、単一の V100 GPU で約 5 枚/秒処理可能です。
SNIPER は大規模バッチと BN を単一GPUで訓練できるようにし、インスタンスレベルの認識には高解像度画像が必須だという見方に挑戦します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。