QUICK REVIEW

[論文レビュー] Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey

Longlong Jing, Yingli Tian|arXiv (Cornell University)|Feb 16, 2019

Advanced Image and Video Retrieval Techniques参考文献 164被引用数 177

ひとこと要約

この論文は、深層ConvNetベースの自己教師付き視覚特徴学習の包括的な調査を提供し、アーキテクチャ、事前タスク、データセット、評価、および将来の方向性を詳述する。

ABSTRACT

Large-scale labeled data are generally required to train deep neural networks in order to obtain better performance in visual feature learning from images or videos for computer vision applications. To avoid extensive cost of collecting and annotating large-scale datasets, as a subset of unsupervised learning methods, self-supervised learning methods are proposed to learn general image and video features from large-scale unlabeled data without using any human-annotated labels. This paper provides an extensive review of deep learning-based self-supervised general visual feature learning methods from images or videos. First, the motivation, general pipeline, and terminologies of this field are described. Then the common deep neural network architectures that used for self-supervised learning are summarized. Next, the main components and evaluation metrics of self-supervised learning methods are reviewed followed by the commonly used image and video datasets and the existing self-supervised visual feature learning methods. Finally, quantitative performance comparisons of the reviewed methods on benchmark datasets are summarized and discussed for both image and video feature learning. At last, this paper is concluded and lists a set of promising future directions for self-supervised visual feature learning.

研究の動機と目的

大規模なラベルなしデータから視覚特徴を学習する自己教師付き学習の利用を動機づける。
自己教師付き視覚特徴学習で用いられるネットワークアーキテクチャと一般的な事前タスクをレビューする。
学習特徴を評価するために用いられるデータセット、評価プロトコル、下流タスクを要約する。
定量的な性能比較を提供し、有望な将来の方向性について議論する。

提案手法

自動的に生成される疑似ラベルを用いた前タスクでConvNetを訓練し、その後下流タスクへ転移する一般的な自己教師付き学習パイプラインを説明する。
学習スキームを分類（教師あり、半教師あり、弱教師あり、教師なし、自己教師付きに重点を置く）し、損失目的を定式化する。
事前タスクを生成ベース、文脈ベース、自由意味ラベルベース、クロスモーダルのデータ属性に基づいて分類する。
一般的な画像・動画アーキテクチャ（AlexNet, VGG, GoogLeNet, ResNet, DenseNet; 2D/3D ConvNets; LSTMベースのモデル）と特徴学習における役割を概説する。
評価は下流タスク（画像分類、セマンティックセグメンテーション、物体検出、ヒトの行動認識）および定性的な可視化によって行われることを説明する。
よく用いられる画像/動画データセットを要約し、事前タスクが学習特徴の品質をどう促進するかを論じる。

実験結果

リサーチクエスチョン

RQ1自己教師付き学習で転用可能で高品質な視覚特徴を生み出す事前タスクとアーキテクチャの選択は何か？
RQ2自己教師付き特徴は画像分類、セグメンテーション、検出、アクション認識などの下流タスクでどう比較されるか？
RQ3自己教師付き視覚特徴学習法を評価・ベンチマークするための効果的な戦略は何か？
RQ4視覚タスクにおける自己教師付きと教師付きの性能ギャップを埋める将来の方向性は何か？

主な発見

自己教師付きの手法は、人間の注釈なしで大規模なラベルなしデータセットから転用可能な視覚特徴を学習できる。
事前タスクは生成ベース、文脈ベース、自由意味ラベルベース、クロスモーダルベースの4つに分類され、それぞれ特徴学習を誘導する。
一般的な下流評価には画像分類、セマンティックセグメンテーション、物体検出、アクション認識が含まれ、特徴の一般化を評価する。
大規模データで事前学習した自己教師付きモデルはトレーニングを加速し、下流の性能を向上させ、教師あり手法とのギャップを縮めることができる。
本論文は方法とデータセット間の定量的な性能比較を提供し、傾向と改善の余地を浮き彫りにしている。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。