[論文レビュー] Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
本論文は、Attention-RPNとMulti-Relation Detectorを備え、対照学習で訓練されるfew-shotオブジェクト検出ネットワークと、1000カテゴリのFSODデータセットを導入し、ファインチューニングなしで最先端の結果を達成する。
Conventional methods for object detection typically require a substantial amount of training data and preparing such high-quality training data is very labor-intensive. In this paper, we propose a novel few-shot object detection network that aims at detecting objects of unseen categories with only a few annotated examples. Central to our method are our Attention-RPN, Multi-Relation Detector and Contrastive Training strategy, which exploit the similarity between the few shot support set and query set to detect novel objects while suppressing false detection in the background. To train our network, we contribute a new dataset that contains 1000 categories of various objects with high-quality annotations. To the best of our knowledge, this is one of the first datasets specifically designed for few-shot object detection. Once our few-shot network is trained, it can detect objects of unseen categories without further training or fine-tuning. Our method is general and has a wide range of potential applications. We produce a new state-of-the-art performance on different datasets in the few-shot setting. The dataset link is https://github.com/fanq15/Few-Shot-Object-Detection-Dataset.
研究の動機と目的
- 再訓練なしで未見のカテゴリを検出できる一般的なfew-shotオブジェクト検出モデルを開発する。
- サポート-クエリの類似性を活用して proposals の生成と検出精度を向上させる。
- RPNにアテンション機構を導入し、背景の偽陽性を抑制するマルチリレーション・デテクターを導入する。
- 堅牢なfew-shot評価のために、1000カテゴリを持つ大規模で多様なFSODデータセットを構築する。
- ファインチューニングなしでImageNet DetectionとMS COCOで高い性能を示す。
提案手法
- サポート情報を深さ方向結合(depth-wise cross-correlation)を介して取り込み、提案をフィルタリングするAttention-RPNを備えたウェイト共有のFaster R-CNNフレームワークを用いる。
- グローバル、ローカル、パッチヘッドを備えたマルチリレーション・デテクターを統合し、サポート-クエリの関係を測定して提案の再スコアリングを行う。
- 同一カテゴリのマッチと異なるカテゴリの識別を訓練する2-way対比学習戦略を適用し、識別性を向上させる。
- FSOD上でエンドツーエンドに訓練し、ImageNetおよびCOCOでの任意の事前訓練をオプションとし、2-way 5-shot対比スキームをフルモデルとして用いる。
- 同一カテゴリのサポートを平均化してサポート特徴を融合し、アテンションRPNとデテクターの頑健なサポート表現を形成する。
実験結果
リサーチクエスチョン
- RQ1サポート画像情報によって共有重み検出フレームワークを導き、再訓練なしで新規カテゴリを検出できるか?
- RQ2アテンション付きRPNは、通常のRPNと比較してfew-shot検出の提案品質を改善するか?
- RQ3検出器の複数のリレーションヘッド(グローバル、ローカル、パッチ)は、few-shotマッチングに補完的な利得をもたらすか?
- RQ4異なるカテゴリを識別する2-way対比学習戦略は、few-shot検出性能を向上させるか?
- RQ5提案されたFSODデータセットは、標準ベンチマークで見なされる未見カテゴリへの一般化にどのように影響するか?
主な発見
- Attention-RPNは通常のRPNと比較してrecallとABOスコアを改善し、AP50およびAP75を向上させる。
- 三つのヘッドすべてを含む完全なマルチリレーションデテクターは、最高のAP50とAP75を達成し、単一ヘッド構成を上回る。
- 2-way 5-shot対比訓練は素朴な訓練に比べて大きな利得をもたらし、複数のデータセットでファインチューニングなしで最先端の結果を達成する。
- FSODで訓練されたモデルは、COCOで訓練されたモデルより未見カテゴリへの一般化が良く、特に5-shot設定で顕著である。
- FSODデータセットは、カテゴリ数が少ない従来データセットより優れたfew-shot性能と多様性の利点をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。