QUICK REVIEW

[논문 리뷰] Building high-level features using large scale unsupervised learning

Quoc V. Le, Marc’Aurelio Ranzato|arXiv (Cornell University)|2011. 12. 29.

Face recognition and analysis참고 문헌 39인용 수 179

한 줄 요약

이 논문은 1,000台의 컴퓨터 클러스터를 사용해 1,000만 장의 레이블이 없는 YouTube 이미지에서 깊이 있는 비지도 학습 자동에코더를 훈련시켜, 레이블이 전혀 필요 없는 얼굴 및 신체 검출기와 같은 고수준의 클래스별 특징을 학습한다. 모델은 ImageNet의 22,000개 카테고리 객체 인식 과제에서 15.8%의 top-1 정확도를 기록했으며, 이는 이전 최고 성능 대비 70%의 상대적 향상이다. 이는 복잡한 불변성과 고수준 개념이 비지도 사전학습만으로도 도출될 수 있음을 보여준다.

ABSTRACT

We consider the problem of building high-level, class-specific feature detectors from only unlabeled data. For example, is it possible to learn a face detector using only unlabeled images? To answer this, we train a 9-layered locally connected sparse autoencoder with pooling and local contrast normalization on a large dataset of images (the model has 1 billion connections, the dataset has 10 million 200x200 pixel images downloaded from the Internet). We train this network using model parallelism and asynchronous SGD on a cluster with 1,000 machines (16,000 cores) for three days. Contrary to what appears to be a widely-held intuition, our experimental results reveal that it is possible to train a face detector without having to label images as containing a face or not. Control experiments show that this feature detector is robust not only to translation but also to scaling and out-of-plane rotation. We also find that the same network is sensitive to other high-level concepts such as cat faces and human bodies. Starting with these learned features, we trained our network to obtain 15.8% accuracy in recognizing 20,000 object categories from ImageNet, a leap of 70% relative improvement over the previous state-of-the-art.

연구 동기 및 목표

레이블이 없는 데이터만으로도 고수준의 클래스별 특징 검출기(예: 얼굴 검출기)를 학습할 수 있는지 조사하여, 이러한 특정성은 감독 학습이 필수적이라는 가정에 도전한다.
레이블이 전혀 없는 예시만으로도 얼굴 및 인간 신체와 같은 복잡한 시각적 개념을 탐지할 수 있는 깊이 신경망을 훈련시키는 것이 가능한지 테스트한다.
데이터셋 크기, 모델 깊이, 계산 자원을 증가시켜 비지도 특징 학습을 확장함으로써 저수준 특징을 초월한 불변성의 발견을 가능하게 한다.
대규모 레이블이 없는 데이터로 비지도 사전학습을 수행하면, ImageNet 객체 인식과 같은 후행 분류 과제에서 성능 향상이 상당히 이루어지는지 평가한다.

제안 방법

YouTube 영상에서 확보한 1,000만 장의 200x200 픽셀 이미지에 대해 9층의 국소 연결 희소 자동에코더를 풀링 및 국소 대trast 정규화와 함께 훈련시켰다.
1,000台의 컴퓨터 클러스터(16,000개 코어)를 활용해 모델 병렬 처리와 비동기적 확률적 경사 하강법(SGD)을 적용하여 10억 파라미터에 이르는 대규모 훈련을 수행했다.
상호작용을 줄이고 대규모 분산 훈련에서 효율적인 모델 병렬 처리를 가능하게 하기 위해 국소 수신 영역을 사용했다.
ImageNet에서의 정밀한 레이블 학습을 위해 사전에 비지도 학습을 통해 계층적 특징을 학습하고, 이후 미세조정을 수행했다.
수치 최적화 및 시각화를 통해 학습된 특징의 선택성과 불변성 특성을 분석하고 검증했다.
표준 벤치마크를 사용해 성능을 평가하였으며, 이는 얼굴 검출, 인간 신체 검출, 22,000개 카테고리의 ImageNet 분류를 포함한다.

실험 결과

연구 질문

RQ1레이블이 없는 이미지만으로도 얼굴 검출기와 같은 고수준의 클래스별 특징 검출기를 학습시킬 수 있는가? 특히 경계 상자나 카테고리 레이블이 전혀 없을 경우에 대해 질문한다.
RQ2자연 영상 데이터에서 학습한 비지도 특징이 이동, 확대/축소, 평면 외 회전에 대해 어느 정도의 불변성을 보이는가?
RQ3동일한 비지도 표현이 얼굴, 고양이 얼굴, 인간 신체 등 여러 고수준 시각적 개념에 민감하게 반응할 수 있는가?
RQ4대규모 레이블이 없는 데이터로 비지도 사전학습을 수행하면, ImageNet 객체 인식과 같은 후행 분류 과제에서 성능 향상이 상당히 이루어지는가?
RQ5실제 세계의 인식 벤치마크에서 비지도 특징이 수작업 설계된 특징과 무작위 기반 베이스라인에 비해 성능가 비교해보면 어떻게 되는가?

주요 결과

레이블이 전혀 없는 1,000만 장의 YouTube 프레임만으로도 얼굴 검출기 특징을 매우 선택적으로 학습시켰으며, 레이블 데이터가 전혀 필요하지 않았다.
학습된 얼굴 검출기는 이동, 확대/축소, 평면 외의 회전에 대해 강건성을 보이며, 복잡한 불변성을 잘 포착하고 있음을 시사한다.
동일한 네트워크는 고양이 얼굴과 인간 신체 검출기 또한 학습하여, 여러 고수준 시각적 개념으로의 일반화 능력을 보였다.
ImageNet 22,000개 카테고리 기준 벤치마크에서 이 방법은 15.8%의 top-1 정확도를 기록했으며, 이는 이전 최고 성능 대비 70%의 상대적 향상이다.
비지도 사전학습 방법은 랜덤 초기화 및 선형 필터 기반 베이스라인보다 뛰어나며, 고양이 및 인간 신체 검출 과제에서 각각 74.8%와 76.7%의 정확도를 달성했다.
결과는 고수준의 클래스별 뉴런(예: 할머니 뉴런 가설에 영향을 받은)이 대규모 레이블이 없는 데이터에서 비지도 학습을 통해 도출될 수 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.