QUICK REVIEW

[논문 리뷰] Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey

Longlong Jing, Yingli Tian|arXiv (Cornell University)|2019. 02. 16.

Advanced Image and Video Retrieval Techniques참고 문헌 164인용 수 177

한 줄 요약

이 논문은 딥 ConvNet 기반의 자기지도 시각 특징 학습에 대한 포괄적 설문을 제공하며, 아키텍처, 프리텍스트 작업, 데이터셋, 평가 및 향후 방향을 자세히 다룬다.

ABSTRACT

Large-scale labeled data are generally required to train deep neural networks in order to obtain better performance in visual feature learning from images or videos for computer vision applications. To avoid extensive cost of collecting and annotating large-scale datasets, as a subset of unsupervised learning methods, self-supervised learning methods are proposed to learn general image and video features from large-scale unlabeled data without using any human-annotated labels. This paper provides an extensive review of deep learning-based self-supervised general visual feature learning methods from images or videos. First, the motivation, general pipeline, and terminologies of this field are described. Then the common deep neural network architectures that used for self-supervised learning are summarized. Next, the main components and evaluation metrics of self-supervised learning methods are reviewed followed by the commonly used image and video datasets and the existing self-supervised visual feature learning methods. Finally, quantitative performance comparisons of the reviewed methods on benchmark datasets are summarized and discussed for both image and video feature learning. At last, this paper is concluded and lists a set of promising future directions for self-supervised visual feature learning.

연구 동기 및 목표

대규모 라벨되지 않은 데이터로부터 시각 특징을 학습하기 위해 자기지도 학습의 활용을 촉진한다.
자기지도 시각 특징 학습에 사용되는 네트워크 아키텍처와 일반적인 프리텍스트 태스크를 검토한다.
학습된 특징을 평가하기 위해 사용되는 데이터셋, 평가 프로토콜 및 다운스트리스트 태스크를 요약한다.
정량적 성능 비교를 제공하고 유망한 향후 방향을 논의한다.

제안 방법

자동으로 생성된 의사 레이블을 사용하여 프리텍스트 태스크에서 ConvNet을 학습시키고 이후 다운스트리스트 태스크로 전이하는 일반적인 자기지도 학습 파이프라인을 설명한다.
학습 스킴(감독 학습, 반감독 학습, 약지도 학습, 비지도 학습, 자기지도 학습에 중점을 둠)을 분류하고 이들의 손실 목적을 형식화한다.
프리텍스트 태스크를 감독에 사용되는 데이터 속성에 따라 생성 기반, 맥락 기반, 자유 의미 레이블 기반 및 교차 모드 기반으로 분류한다.
일반적인 이미지 및 비디오 아키텍처(AlexNet, VGG, GoogLeNet, ResNet, DenseNet; 2D/3D ConvNets; LSTM 기반 모델)와 피처 학습에서의 역할을 개괄한다.
이미지 분류, 의미론적 분할, 객체 검출, 인간 동작 인식과 같은 다운스트리스트 태스크를 통한 평가와 정성적 시각화를 설명한다.
일반적으로 사용되는 이미지/비디오 데이터셋을 요약하고 프리텍스트 태스크가 학습되는 특징 품질에 어떻게 기여하는지 논의한다.

실험 결과

연구 질문

RQ1자기지도 학습에서 전이 가능하고 고품질의 시각 특징을 생성하는 프리텍스트 태스크와 아키텍처 선택은 무엇인가?
RQ2이미지 분류, 분할, 검출, 동작 인식과 같은 다운스트리스트 태스크에서 자기지도 특징은 어떻게 비교되는가?
RQ3자기지도 시각 특징 학습 방법을 평가하고 벤치마킹하기 위한 효과적인 전략은 무엇인가?
RQ4시각 작업에서 자기지도와 지도학습 간의 격차를 메울 수 있는 향후 방향은 무엇인가?

주요 결과

자기지도 방법은 사람 주석 없이도 대규모 라벨 없는 데이터에서 전이 가능한 시각 특징을 학습할 수 있다.
프리텍스트 태스크는 생성 기반, 맥락 기반, 자유 의미 레이블 기반 및 교차 모달 기반으로 분류되며, 각각 특징 학습을 이끈다.
일반적인 다운스트리스트 평가에는 특징 일반화를 평가하기 위한 이미지 분류, 의미 분할, 객체 검출, 동작 인식이 포함된다.
대규모 데이터에 대한 사전 학습된 자기지도 모델은 학습 속도를 높이고 다운스트리스트 성능을 향상시켜 지도 방법과의 격차를 좁힐 수 있다.
본 논문은 방법과 데이터셋 간의 정량적 성능 비교를 제공하여 경향과 개선 영역을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.