QUICK REVIEW

[論文レビュー] LSTD: A Low-Shot Transfer Detector for Object Detection

Hao Chen, Yali Wang|arXiv (Cornell University)|Mar 5, 2018

Advanced Neural Network Applications被引用数 90

ひとこと要約

LSTDは、SSD風の境界ボックス回帰とFaster R-CNN風の粗→細分類を組み合わせた低ショット転移検出器を提示し、背景抑制と転移知識という正則化された転移学習で強化して、ラベル付きターゲット画像が非常に少ない状態で未知の物体を検出する。

ABSTRACT

Recent advances in object detection are mainly driven by deep learning with large-scale detection benchmarks. However, the fully-annotated training set is often limited for a target detection task, which may deteriorate the performance of deep detectors. To address this challenge, we propose a novel low-shot transfer detector (LSTD) in this paper, where we leverage rich source-domain knowledge to construct an effective target-domain detector with very few training examples. The main contributions are described as follows. First, we design a flexible deep architecture of LSTD to alleviate transfer difficulties in low-shot detection. This architecture can integrate the advantages of both SSD and Faster RCNN in a unified deep framework. Second, we introduce a novel regularized transfer learning framework for low-shot detection, where the transfer knowledge (TK) and background depression (BD) regularizations are proposed to leverage object knowledge respectively from source and target domains, in order to further enhance fine-tuning with a few target images. Finally, we examine our LSTD on a number of challenging low-shot detection experiments, where LSTD outperforms other state-of-the-art approaches. The results demonstrate that LSTD is a preferable deep detector for low-shot scenarios.

研究の動機と目的

ラベル付きデータが限られた低ショットターゲット領域へ深層物体検出器を適応させる困難に対処する。
豊富なソースドメイン知識を活用して、数ショット学習に適したターゲットドメイン検出器を構築する。
小規模なターゲットデータセットでのファインチューニングを改善する正則化された転移学習フレームワークを開発する。
境界ボックス回帰と物体分類を柔軟なアーキテクチャに統合し、低ショット検出の転移学習を容易にする。

提案手法

サイズ多様性のためのSSD風のマルチ畳み込み境界ボックス回帰と、堅牢なオブジェクト性とカテゴリ決定のためのFaster RCNN風の粗→細分類を用いる深いLSTDアーキテクチャを設計する。
LSTDを大規模なソースデータセットで訓練し、次にターゲットドメインのLSTDをソースから初期化し、主検出損失と2つの正則化項を含む正則化損失でファインチューニングする。
Ground-truthボックスを用いて背景領域の活性化を抑制するBackground-Depression (BD)正則化を導入し、物体に学習を集中させる。
ソースドメインのソフトラベルを用いてターゲットドメスの提案を指導するTransfer-Knowledge (TK)正則化を導入し、オブジェクト提案ごとに実装する。
総損失を L_total = L_main + L_BD + L_TK と定式化し、寄与をバランスさせる可変重みを設定する。
3つの転移タスク（COCO→ImageNet2015、COCO→VOC2007、ImageNet2015→VOC2010）で、ターゲットサンプルを徐々に減らした評価（1–30ショット）を行う。
LSTDをFaster RCNNおよびSSDと比較し、BDおよびTK正則化が低ショット性能に与える影響を分析する。

実験結果

リサーチクエスチョン

RQ1SSDとFaster RCNNの構成要素を組み合わせた統合アーキテクチャは、低ショット検出性能を改善できるか。
RQ2BDとTKを用いた正則化転移学習は、ターゲットデータが不足しているときのファインチューニングを改善するか。
RQ3真に低ショットの状況（1–5ショット）でのLSTDの性能は、最先端の弱教師付き/半教師付き検出器と比べてどうか。
RQ4LSTDはROI pooling層の選択やソースとターゲットドメイン間のターゲットクラスの違いに対して頑健か。

主な発見

Task	Source (large-scale)	Target (low-shot)	mAP (1-shot)	mAP (2-shot)	mAP (5-shot)	mAP (10-shot)	mAP (30-shot)
Task 1	COCO (80 classes)	ImageNet2015 (50 classes)	16.5	21.9	34.3	41.5	52.6
Task 2	COCO (60 classes)	VOC2007 (20 classes)	27.1	46.1	57.9	63.2	67.2
Task 3	ImageNet2015 (181 classes)	VOC2010 (20 classes)	29.3	37.2	48.1	52.1	56.4

LSTDは、タスクを通じて低ショットターゲット領域でFaster RCNNおよびSSDより優れている。
TKとBDによる正則化はファインチューニングを著しく改善し、特に1–5ショットで顕著（例：タスク2、1ショット：FT 27.1 → TK 31.8 → TK+BD 34.0）。
BD正則化は前景への焦点を一貫して支援し背景の妨害を減らし、BDに用いる畳み込み層の選択（conv5_3 vs conv7）に頑健である。
TK正則化はソースドメインのソフトラベルを用いてターゲット提案を正則化し、未知のターゲットカテゴリに対するドメイン間転送を改善する。
タスク1では30ショットでLSTDは52.6 mAP（LSTD FT）および最大55.8 mAP（LSTD FT+TK+BD）を達成しており、データ量の増加で強い性能を示している。
LSTDは非常に低ショット設定（1–5ショット）で弱教師付き/半教師付き手法と比較して競争力があり、適度なターゲットデータで完全教師付きに近づく。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。