QUICK REVIEW

[論文レビュー] Restoring Negative Information in Few-Shot Object Detection

Yukuan Yang, Fangyun Wei|arXiv (Cornell University)|Oct 22, 2020

Domain Adaptation and Few-Shot Learning参考文献 39被引用数 25

ひとこと要約

本稿では、メトリック学習空間内で分離されたネガティブおよびポジティブの代表を学習することにより、ネガティブ情報の回復を図るfew-shot object detectionフレームワークNP-RepMetを提案する。トリプレット損失とクラスタリングに基づく選択戦略を用いて、ハードで多様なネガティブプロポーザルを統合することで、ImageNet-LOCおよびPASCAL VOCにおいて、先行SOTAを大きく上回るfew-shot検出性能が実現される。

ABSTRACT

Few-shot learning has recently emerged as a new challenge in the deep learning field: unlike conventional methods that train the deep neural networks (DNNs) with a large number of labeled data, it asks for the generalization of DNNs on new classes with few annotated samples. Recent advances in few-shot learning mainly focus on image classification while in this paper we focus on object detection. The initial explorations in few-shot object detection tend to simulate a classification scenario by using the positive proposals in images with respect to certain object class while discarding the negative proposals of that class. Negatives, especially hard negatives, however, are essential to the embedding space learning in few-shot object detection. In this paper, we restore the negative information in few-shot object detection by introducing a new negative- and positive-representative based metric learning framework and a new inference scheme with negative and positive representatives. We build our work on a recent few-shot pipeline RepMet with several new modules to encode negative information for both training and testing. Extensive experiments on ImageNet-LOC and PASCAL VOC show our method substantially improves the state-of-the-art few-shot object detection solutions. Our code is available at https://github.com/yang-yk/NP-RepMet.

研究の動機と目的

トレーニングおよび推論中に破棄されることが多く、特にハードネガティブなプロポーザルが少なくなっているfew-shot object detectionにおける限界を是正すること。
ポジティブおよびネガティブな代表埋め込みを明示的にモデル化することで、few-shot object detectionにおけるメトリック学習を向上させること。
サポート画像から得られるハードで多様なネガティブプロポーザルを統合することで、特徴空間の識別性を向上させること。
新しいクラスに対する一般化を向上させるために、ポジティブおよびネガティブな代表を併用する推論スキームを構築すること。
ネガティブ情報の回復が、few-shot object detectionにおける性能向上に顕著な寄与をもたらすことを示すこと。

提案手法

ポジティブおよびネガティブなプロポーザルのための別個の埋め込みを組み合わせた新しいNP埋め込み表現を導入する。
ポジティブおよびネガティブなプロポーザルに別々の最適化目的を持つ二重ブランチメトリック学習フレームワークを提案し、トリプレット損失を用いる。
クラス表現をポジティブおよびネガティブな成分に分割することで、RepMetパイプラインを改善し、特徴の方向性を高める。
ハードネガティブプロポーザルを特定するためのIoU基準（τ < IoU < t）を適用し、その後にクラスタリングに基づく戦略を用いて選択の多様性を保証する。
標準のプロトタイプベースの推論を、テスト時にポジティブおよびネガティブな代表埋め込みを併用するスキームに置き換える。
新しい埋め込みおよび損失コンponentsをRepMetの分類ヘッドに統合し、エンドツーエンドのトレーニングおよび推論を可能にする。

実験結果

リサーチクエスチョン

RQ1ハードネガティブプロポーザルの統合が、few-shot object detection性能の向上に寄与するか？
RQ2ポジティブおよびネガティブな代表学習を分離することで、few-shot detectionにおけるメトリック空間の質がどのように変化するか？
RQ3多様でハードなネガティブサンプリングの影響は、新しいクラスへの一般化にどのように現れるか？
RQ4ポジティブおよびネガティブな代表を同時にモデル化するメトリック学習フレームワークは、既存のfew-shot detection手法を上回るか？
RQ5二重代表を用いた提案された推論スキームは、標準のプロトタイプベース推論と比較してどのように異なるか？

主な発見

PASCAL VOC 2007の5-shot設定において、NP-RepMetは平均平均精度（mAP）68.3%を達成し、以前のSOTAの67.9%を上回った。
PASCAL VOCの3-shot設定において、本手法は64.8%のmAPを達成し、以前のSOTA（同じ値であるが、クラス間の一貫性が向上）を上回った。
ImageNet-LOCでは、5-shot検出において79.8%のmAPを達成し、以前のSOTAの76.1%を顕著に上回った。
t-SNE可視化により、ポジティブ代表がクラスごとに明確にクラスタリングされ、他のクラスから分離されている一方で、ネガティブ代表が異なるクラスのハードネガティブプロポーザルを明確に区別していることが確認された。
アブレーションスタディの結果、ネガティブ情報の統合により、複数のfew-shot設定で一貫して2.5–4.0%のmAP向上が得られた。
クラスタリングに基づくハードネガティブ選択戦略は、ランダム選択やIoUのみの選択に比べて性能を向上させ、特に誤検出の低減に寄与した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。