QUICK REVIEW

[논문 리뷰] Unsupervised Learning of Visual Representations using Videos

Xiaolong Wang, Abhinav Gupta|arXiv (Cornell University)|2015. 05. 04.

Advanced Image and Video Retrieval Techniques참고 문헌 51인용 수 202

한 줄 요약

이 논문은 레이블이 없는 영상에서 시간적 일관성에 기반한 자기지도 학습(self-supervision)을 활용해 시각적 표현을 학습하는 비지도 학습 방법을 제안한다. 10만 개의 레이블이 없는 영상에서 추적된 수백만 개의 패치를 활용해 시아모이-트리플릿 네트워크를 순서 손실(ranking loss)로 훈련함으로써, 인간이 레이블을 붙이지 않은 상태에서 PASCAL VOC 객체 검출에서 52% mAP를 달성하였으며, 이는 ImageNet으로 사전 훈련된 모델의 2.4% 이내 수준이다.

ABSTRACT

Is strong supervision necessary for learning a good visual representation? Do we really need millions of semantically-labeled images to train a Convolutional Neural Network (CNN)? In this paper, we present a simple yet surprisingly powerful approach for unsupervised learning of CNN. Specifically, we use hundreds of thousands of unlabeled videos from the web to learn visual representations. Our key idea is that visual tracking provides the supervision. That is, two patches connected by a track should have similar visual representation in deep feature space since they probably belong to the same object or object part. We design a Siamese-triplet network with a ranking loss function to train this CNN representation. Without using a single image from ImageNet, just using 100K unlabeled videos and the VOC 2012 dataset, we train an ensemble of unsupervised networks that achieves 52% mAP (no bounding box regression). This performance comes tantalizingly close to its ImageNet-supervised counterpart, an ensemble which achieves a mAP of 54.4%. We also show that our unsupervised network can perform competitively in other tasks such as surface-normal estimation.

연구 동기 및 목표

깊은 CNN에서 강력한 시각적 표현을 학습하기 위해 강력한 의미론적 지도 학습이 필수적인가를 조사하는 것.
레이블이 없는 영상이 효과적인 자기지도 표현 학습을 가능하게 할 정도로 충분한 시공간적 구조를 포함하고 있는가를 탐색하는 것.
ImageNet이나 인간이 레이블을 붙인 데이터셋에 의존하지 않고 강력한 시각적 특징을 학습하는 방법을 개발하는 것.
학습된 표현의 일반화 능력을 객체 검출 이외의 작업에 대해 평가하는 것.

제안 방법

해당 방법은 비지도 영상 추적을 통해 양성 및 음성 트리플릿(positive and negative triplets)을 생성한다: 첫 번째 프레임의 쿼리 패치, 동일 트랙의 마지막 프레임에서 추적된 패치, 다른 영상에서 무작위로 선택한 패치.
시아모이-트리플릿 네트워크 아키텍처를 사용하여, 네트워크가 쿼리 패치와 추적된 패치를 특징 공간에서 더 가까이 배치하고, 무작위 패치와는 더 멀리 떨어지도록 학습한다.
순서 손실 함수는 쿼리 패치와 추적된 패치 간의 거리가 무작위 패치와의 거리보다 작아지도록 강제한다.
네트워크는 10만 개의 레이블이 없는 영상과 그로부터 추출한 총 800만 개의 패치를 사용해 훈련되며, 오직 추적 일관성만을 지도로 사용한다.
사전 훈련 후, 네트워크는 ImageNet으로의 추가 사전 훈련 없이 PASCAL VOC 2012 데이터셋에서 객체 검출을 위해 미세조정(fine-tuned)된다.
이 방법은 NYUv2를 사용한 표면 법선 추정 작업에서도 평가되었으며, 비지도 모델은 최소한의 데이터로 미세조정하여 ImageNet 성능에 근접한 성능을 달성했다.

실험 결과

연구 질문

RQ1레이블이 없는 영상에서 인간이 레이블을 붙이지 않은 데이터나 ImageNet 사전 훈련 없이도 시각적 표현을 효과적으로 학습할 수 있는가?
RQ2영상 추적의 시간적 일관성이 분류 가능한 깊은 특징을 학습하는 데 충분한 지도를 제공하는가?
RQ3웹 스케일의 영상에서 비지도로 훈련된 CNN의 성능이 객체 검출에서 ImageNet으로 사전 훈련된 모델과 비교해 어떻게 되는가?
RQ4비지도 표현이 표면 법선 추정과 같은 다른 비전 작업으로 일반화 가능한가?
RQ5비지도 사전 훈련이 하류 작업에서 무작위 초기화로 훈련하는 것에 비해 성능 향상은 어느 정도인가?

주요 결과

비지도 사전 훈련된 CNN 앙상블은 경계 박스 회귀 없이 PASCAL VOC 2012 객체 검출에서 52% mAP를 달성했으며, 무작위 초기화로 훈련한 것보다 4.7% 높은 성능을 보였다.
비지도 모델은 52% mAP를 기록했으며, 이는 ImageNet으로 사전 훈련된 앙상블(54.4% mAP)과 2.4% 이내의 성능 차이를 보였다.
NYUv2 표면 법선 추정 작업에서, 사전 훈련된 가중치에서 미세조정한 비지도 모델은 평균 오차 34.2°를 기록했으며, 이는 무작위 초기화(38.6°)를 뛰어넘었고, ImageNet으로 사전 훈련된 성능(33.3°)에 근접했다.
NYUv2에서 비지도 모델은 중앙 오차 21.9°를 기록했으며, 무작위 초기화 모델은 26.5°, ImageNet으로 사전 훈련된 모델은 20.8°였다.
영상의 시간적 일관성이 의미론적 레이블 없이도 강력한 지도의 대체 수단이 될 수 있음을 보여주며, 강력한 표현 학습을 가능하게 한다.
결과적으로, 웹 스케일의 영상에서 비지도 사전 훈련을 통해 다수의 작업에서 경쟁 가능한 특징을 생성할 수 있으며, 고성능 비전 모델을 위해 강력한 지도 학습이 필수적이라는 가정을 도전한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.