Skip to main content
QUICK REVIEW

[논문 리뷰] Unsupervised Learning by Predicting Noise

Piotr Bojanowski, Armand Joulin|arXiv (Cornell University)|2017. 04. 18.
Advanced Neural Network Applications인용 수 129
한 줄 요약

이 논문은 Noise As Targets(NAT)를 소개합니다. NAT는 특징을 고정된 임의 대상 벡터에 매핑하여 끝에서 끝까지 convnet을 학습하는 비지도 학습 프레임워크로, ImageNet과 같은 대규모 데이터셋에서 확장 가능한 학습을 가능하게 합니다. 또한 최첨단 비지도 방법과 경쟁력 있는 전이 성능을 달성합니다.

ABSTRACT

Convolutional neural networks provide visual features that perform remarkably well in many computer vision applications. However, training these networks requires significant amounts of supervision. This paper introduces a generic framework to train deep networks, end-to-end, with no supervision. We propose to fix a set of target representations, called Noise As Targets (NAT), and to constrain the deep features to align to them. This domain agnostic approach avoids the standard unsupervised learning issues of trivial solutions and collapsing of features. Thanks to a stochastic batch reassignment strategy and a separable square loss function, it scales to millions of images. The proposed approach produces representations that perform on par with state-of-the-art unsupervised methods on ImageNet and Pascal VOC.

연구 동기 및 목표

  • 레이블로 인한 편향을 피하기 위해 사람의 주석 없이 풍부한 시각 특징을 학습하는 것을 동기부여합니다.
  • 특징 붕괴를 피하면서 끝에서 끝까지 판별적 프레임워크를 제안합니다.
  • 고정된 임의 타깃 표현과 확장 가능한 할당 메커니즘을 도입합니다.
  • NAT가 최첨단의 비지도 방법과 비교 가능한 전이 가능한 특징을 생성함을 보입니다.

제안 방법

  • 이미지에서 단위 정규화된 특징으로의 매핑 f_theta를 정의하고 고정된 타깃 표현과 함께 theta를 공동 최적화합니다.
  • k개의 타깃 벡터로 구성된 타깃 행렬 C를 고정하고 1-대-1 제약 하에 P라는 재배치 유사 행렬을 통해 이미지를 타깃에 할당합니다.
  • f_theta(X)와 Y=PC 사이의 제곱 손실을 사용하며, P는 붕괴를 방지하기 위해 온라인으로 업데이트됩니다.
  • 타깃은 단위 구면에서 균일하게 샘플링하여 특징 공간의 분포를 근사하도록 NAT 타깃을 선택합니다.
  • 확장성을 위해 배치 부분 행렬에 한정된 온라인 헝가리 기반 할당으로 SGD로 최적화합니다.
  • 비지도 신호의 품질을 높이기 위해 입력을 이미지 그래디언트 및 표준 확장으로 전처리합니다.

실험 결과

연구 질문

  • RQ1判别적 비생성적(Non-generative) 비지도 목적이 전이 가능한 시각 특징을 낳을 수 있는가?
  • RQ2타깃 표현을 고정하고 온라인 재할당을 사용하면 특징 붕괴를 막으면서 대규모 데이터셋에 확장 가능할까?
  • RQ3다른 타깃 표현과 업데이트 빈도가 학습된 표현 및 전이 성능에 어떤 영향을 미치는가?
  • RQ4NAT로 얻은 특징이 ImageNet 및 PASCAL VOC에서 다른 비지도 및 자기지도 방법들과 경쟁력이 있는가?

주요 결과

방법Acc@1
무작위12.0
SIFT+FV55.6
Wang & Gupta (2015)29.8
Doersch et al. (2015)30.4
Zhang et al. (2016)35.2
Noroozi & Favaro (2016)38.1
BiGAN (Donahue et al., 2016)32.2
NAT (this work)36.0
  • NAT는 ImageNet에서 최첨단 비지도 및 자기지도 방식과 견줄 만한 전이 성능을 달성합니다.
  • 단위 정규화된 특징에 대한 제곱 손실로의 학습은 이 설정에서 소프트맥스 손실과 유사한 성능을 보입니다.
  • 불연속적이고 기저와 같은 타깃은 ImageNet 전이에서 연속 NAT 타깃에 비해 성능이 떨어집니다.
  • 타깃 재할당을 매 몇 에포크마다 업데이트하면 성능과 계산 사이의 좋은 절충점을 제공합니다.
  • NAT 특징은 감독 학습特徴와 유사한 의미 있는 구조와 엣지를 시각적으로 포착하지만 강도 면에서 차이가 있습니다.
  • PASCAL VOC 2007에서 NAT는 표준 오토인코더 및 GAN 기반 베이스라인을 능가하고 BiGAN과 경쟁하며 자기지도 방법에 근접합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.