QUICK REVIEW

[論文レビュー] Self-EMD: Self-Supervised Object Detection without ImageNet

Songtao Liu, Zeming Li|arXiv (Cornell University)|Nov 27, 2020

Video Surveillance and Tracking Methods参考文献 37被引用数 67

ひとこと要約

Self-EMD は非アイコン的データ（COCO）で密な特徴マップと Earth Mover’s Distance を用いて空間的類似性を測定し、ImageNet なしで競合的な物体検出の事前学習を実現します。COCOデータで 39.8% mAP を達成し、より多くの非ラベルデータで 40.4% に到達できます。

ABSTRACT

In this paper, we propose a novel self-supervised representation learning method, Self-EMD, for object detection. Our method directly trained on unlabeled non-iconic image dataset like COCO, instead of commonly used iconic-object image dataset like ImageNet. We keep the convolutional feature maps as the image embedding to preserve spatial structures and adopt Earth Mover's Distance (EMD) to compute the similarity between two embeddings. Our Faster R-CNN (ResNet50-FPN) baseline achieves 39.8% mAP on COCO, which is on par with the state of the art self-supervised methods pre-trained on ImageNet. More importantly, it can be further improved to 40.4% mAP with more unlabeled images, showing its great potential for leveraging more easily obtained unlabeled data. Code will be made available.

研究の動機と目的

ImageNet またはアイコン物体データセットに依存しない自己監視型事前学習を動機づける。
グローバルプーリングを避け、密な特徴マップを埋め込みとして用いることで空間構造を保持する。
非アイコン画像からのクロップ間で局所パッチを整合させるために Earth Mover’s Distance を導入する。
検出の頑健性を高めるためスケール不変トレーニング手法を組み込む。

提案手法

BYOL を基盤としたクロスビューフレームワークから開始する。
空間情報を保持するためグローバルプーリングを密な特徴マップに置換する。
二つの特徴マップ間の EMD をコサインベースの局所コストと限界重みで定義する。
正規化を伴う Sinkhorn-Knopp 反復で EMD を効率的に解く。
小スケールビューと Spatial Pyramid Cropping (SPC) を用いたスケール不変トレーニングを導入する。
頑健な限界重みを生成するため並列の MLP パスを維持する。

実験結果

リサーチクエスチョン

RQ1ImageNet なしで非アイコンデータセットを用いた自己監督事前学習は検出性能を競合的に高められるのか。
RQ2密な特徴マップによる空間構造の保持はグローバルプールされた埋め込みと比べて検出器のファインチューニングを改善するのか。
RQ3EMD は複数物体の混在を含むクロップ間で局所特徴を効果的に一致させられるのか。
RQ4SPC およびマルチスケールビューといったスケール不変戦略は自己監督型事前学習の検出性能をさらに改善するのか。

主な発見

Detector	Pre-train Method	Pre-train Data	Label	AP	AP50	AP75	APs	APm	APl
Faster R-CNN	ImageNet	✓	Classification	39.1	60.0	42.2	24.1	42.7	50.4
BYOL	ImageNet	✓	Classification	39.9	60.2	43.2	23.3	43.2	52.8
Self-EMD	ImageNet	✓	Classification	40.0	60.4	44.0	23.5	43.8	52.2
BYOL	COCO	✓	Classification	38.8	58.5	42.2	23.3	41.4	49.5
Self-EMD	COCO	✓	Classification	39.8	60.0	43.4	24.2	42.7	50.6
BYOL	COCO+	✓	Classification	39.3	59.0	42.8	23.5	42.1	50.5
Self-EMD	COCO+	✓	Classification	40.4	61.1	43.7	24.4	43.3	51.3

Self-EMD は COCO で COCO 事前学習を用いて 39.8% mAP を達成し、ImageNet 事前学習 BYOL や教師ありベースラインと同等である。
COCO+（COCO トレーニング＋非ラベル COCO）を用いると Self-EMD は 40.4% mAP に達し、より多くの非ラベルデータからの利得を示す。
限界重みを用いた EMD ベースのマッチングは他の EMD 設定を上回り、提案設計の妥当性を裏付ける（アブレーションで 39.5% vs 37.2% mAP）。
スケール不変技術（SPC およびマルチスケール）は追加の小幅な利得をもたらす（最大で ~0.3% AP）。
Self-EMD は単段検出器（例： RetinaNet）でより大きな利得を示し、Faster R-CNN および Mask R-CNN の派生でも競争力を保つ。
ラベルなし COCO での学習はバックボーンに依らず堅牢であり、より大きなモデルほど利得が大きい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。