Skip to main content
QUICK REVIEW

[論文レビュー] LSTD: A Low-Shot Transfer Detector for Object Detection

Hao Chen, Yali Wang|arXiv (Cornell University)|Mar 5, 2018
Advanced Neural Network Applications被引用数 90
ひとこと要約

LSTDは、SSD風の境界ボックス回帰とFaster R-CNN風の粗→細分類を組み合わせた低ショット転移検出器を提示し、背景抑制と転移知識という正則化された転移学習で強化して、ラベル付きターゲット画像が非常に少ない状態で未知の物体を検出する。

ABSTRACT

Recent advances in object detection are mainly driven by deep learning with large-scale detection benchmarks. However, the fully-annotated training set is often limited for a target detection task, which may deteriorate the performance of deep detectors. To address this challenge, we propose a novel low-shot transfer detector (LSTD) in this paper, where we leverage rich source-domain knowledge to construct an effective target-domain detector with very few training examples. The main contributions are described as follows. First, we design a flexible deep architecture of LSTD to alleviate transfer difficulties in low-shot detection. This architecture can integrate the advantages of both SSD and Faster RCNN in a unified deep framework. Second, we introduce a novel regularized transfer learning framework for low-shot detection, where the transfer knowledge (TK) and background depression (BD) regularizations are proposed to leverage object knowledge respectively from source and target domains, in order to further enhance fine-tuning with a few target images. Finally, we examine our LSTD on a number of challenging low-shot detection experiments, where LSTD outperforms other state-of-the-art approaches. The results demonstrate that LSTD is a preferable deep detector for low-shot scenarios.

研究の動機と目的

  • ラベル付きデータが限られた低ショットターゲット領域へ深層物体検出器を適応させる困難に対処する。
  • 豊富なソースドメイン知識を活用して、数ショット学習に適したターゲットドメイン検出器を構築する。
  • 小規模なターゲットデータセットでのファインチューニングを改善する正則化された転移学習フレームワークを開発する。
  • 境界ボックス回帰と物体分類を柔軟なアーキテクチャに統合し、低ショット検出の転移学習を容易にする。

提案手法

  • サイズ多様性のためのSSD風のマルチ畳み込み境界ボックス回帰と、堅牢なオブジェクト性とカテゴリ決定のためのFaster RCNN風の粗→細分類を用いる深いLSTDアーキテクチャを設計する。
  • LSTDを大規模なソースデータセットで訓練し、次にターゲットドメインのLSTDをソースから初期化し、主検出損失と2つの正則化項を含む正則化損失でファインチューニングする。
  • Ground-truthボックスを用いて背景領域の活性化を抑制するBackground-Depression (BD)正則化を導入し、物体に学習を集中させる。
  • ソースドメインのソフトラベルを用いてターゲットドメスの提案を指導するTransfer-Knowledge (TK)正則化を導入し、オブジェクト提案ごとに実装する。
  • 総損失を L_total = L_main + L_BD + L_TK と定式化し、寄与をバランスさせる可変重みを設定する。
  • 3つの転移タスク(COCO→ImageNet2015、COCO→VOC2007、ImageNet2015→VOC2010)で、ターゲットサンプルを徐々に減らした評価(1–30ショット)を行う。
  • LSTDをFaster RCNNおよびSSDと比較し、BDおよびTK正則化が低ショット性能に与える影響を分析する。

実験結果

リサーチクエスチョン

  • RQ1SSDとFaster RCNNの構成要素を組み合わせた統合アーキテクチャは、低ショット検出性能を改善できるか。
  • RQ2BDとTKを用いた正則化転移学習は、ターゲットデータが不足しているときのファインチューニングを改善するか。
  • RQ3真に低ショットの状況(1–5ショット)でのLSTDの性能は、最先端の弱教師付き/半教師付き検出器と比べてどうか。
  • RQ4LSTDはROI pooling層の選択やソースとターゲットドメイン間のターゲットクラスの違いに対して頑健か。

主な発見

TaskSource (large-scale)Target (low-shot)mAP (1-shot)mAP (2-shot)mAP (5-shot)mAP (10-shot)mAP (30-shot)
Task 1COCO (80 classes)ImageNet2015 (50 classes)16.521.934.341.552.6
Task 2COCO (60 classes)VOC2007 (20 classes)27.146.157.963.267.2
Task 3ImageNet2015 (181 classes)VOC2010 (20 classes)29.337.248.152.156.4
  • LSTDは、タスクを通じて低ショットターゲット領域でFaster RCNNおよびSSDより優れている。
  • TKとBDによる正則化はファインチューニングを著しく改善し、特に1–5ショットで顕著(例:タスク2、1ショット:FT 27.1 → TK 31.8 → TK+BD 34.0)。
  • BD正則化は前景への焦点を一貫して支援し背景の妨害を減らし、BDに用いる畳み込み層の選択(conv5_3 vs conv7)に頑健である。
  • TK正則化はソースドメインのソフトラベルを用いてターゲット提案を正則化し、未知のターゲットカテゴリに対するドメイン間転送を改善する。
  • タスク1では30ショットでLSTDは52.6 mAP(LSTD FT)および最大55.8 mAP(LSTD FT+TK+BD)を達成しており、データ量の増加で強い性能を示している。
  • LSTDは非常に低ショット設定(1–5ショット)で弱教師付き/半教師付き手法と比較して競争力があり、適度なターゲットデータで完全教師付きに近づく。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。