QUICK REVIEW

[論文レビュー] Frustratingly Simple Few-Shot Object Detection

Xin Wang, Thomas E. Huang|arXiv (Cornell University)|Mar 16, 2020

Domain Adaptation and Few-Shot Learning参考文献 22被引用数 40

ひとこと要約

本論文は、オブジェクト検出器の最後の層のみを、基底クラスと新規クラスをバランス良く含むセットで微調整する（2段階のファインチューニング）ことと、インスタンスレベルの特徴正規化およびコサイン類似度分類を組み合わせると、Few-shot物体検出においてメタ学習法を上回ることを示し、VOC、COCO、LVIS全体でより信頼性のあるベンチマークを導入する。

ABSTRACT

Detecting rare objects from a few examples is an emerging problem. Prior works show meta-learning is a promising approach. But, fine-tuning techniques have drawn scant attention. We find that fine-tuning only the last layer of existing detectors on rare classes is crucial to the few-shot object detection task. Such a simple approach outperforms the meta-learning methods by roughly 2~20 points on current benchmarks and sometimes even doubles the accuracy of the prior methods. However, the high variance in the few samples often leads to the unreliability of existing benchmarks. We revise the evaluation protocols by sampling multiple groups of training examples to obtain stable comparisons and build new benchmarks based on three datasets: PASCAL VOC, COCO and LVIS. Again, our fine-tuning approach establishes a new state of the art on the revised benchmarks. The code as well as the pretrained models are available at https://github.com/ucbdrive/few-shot-object-detection.

研究の動機と目的

Few-shot物体検出において、単純なファインチューニングがメタ学習を上回るかを評価する。
トレーニングスケジュールとインスタンスレベルの特徴正規化が検出性能に与える影響を調査する。
Few-shot設定における変動性と基底クラス知識保持への対応として評価プロトコルを改訂する。

提案手法

Faster R-CNNをベース検出器として採用し、トレーニングを基底クラスと少数ショット段階に分割する（2段階のファインチューニング、TFA）。
第1段階では基底クラスで検出器を訓練し、第2段階では特徴抽出器を凍結し、ボックス予測子の最後の層のみを基底クラスと新規クラスのバランスセットでファインチューニングする。
第2段階でボックス分類器内にインスタンスレベルの正規化を適用して、クラス内ばらつきを低減する。
提案分類器はコサイン類似度ベースのボックス分類器を用いて提案を分類し、固定スケーリング係数αを適用する（経験的に20）。
メタ学習のベースライン（FSRW、Meta R-CNN、MetaDet）および完全にファインチューニング済みまたは共同訓練済みのベースラインと比較する。
ベンチマークを改訂し、複数の訓練グループをサンプリングしたうえで、VOC、COCO、LVISで基底クラスAP、新規クラスAP、一般化APを報告する。

実験結果

リサーチクエスチョン

RQ1バランスの取れた基底+新規セットで検出器の最後の層のみをファインチューニングするだけで、Few-shot物体検出においてメタ学習法を上回るか？
RQ2どのようなトレーニング機構（スケジュール、正規化、コサイン分類器）がFew-shot検出性能を安定化・向上させるのか？
RQ3改訂された評価プロトコルは、VOC、COCO、LVISのデータセット間での信頼性と比較にどのように影響するのか？

主な発見

2段階ファインチューニング（TFA）は、VOCおよびCOCOのベンチマークで以前のメタ学習法を約2〜20 APポイント上回る。
インスタンスレベル正規化を用いたコサイン類似度ベースのボックス分類器を用いると、特に非常に少数ショットの領域（1ショット）で新規クラスAPがさらに改善する。
LVISでは、TFAは希少クラスAPを約4ポイント、一般クラスAPを約2ポイント改善し、頻繁クラスへの影響はごくわずか。
改訂ベンチマークはFew-shot検出結果に高いばらつきを示す。異なるサンプリンググループで複数回実行することで、比較がより安定し信頼性が高くなる。
VOC、COCO、LVIS全体で、改訂評価プロトコル下でTFAは新たなSOTA結果を確立する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。