QUICK REVIEW

[논문 리뷰] Data-Efficient Image Recognition with Contrastive Predictive Coding

Olivier J. Hénaff, Aravind Srinivas|arXiv (Cornell University)|2019. 05. 22.

Advanced Image and Video Retrieval Techniques참고 문헌 99인용 수 936

한 줄 요약

이 논문은 Contrastive Predictive Coding(CPC)을 재검토하고 개선하여 데이터 효율적 인식 가능하게 unsupervised 이미지 표현을 학습하고, 선도적인 선형 ImageNet 성능과 객체 탐지로의 강한 전이, 소수 라벨을 사용한 경우 픽셀 기반 학습보다 현저히 더 나은 성능을 달성한다.

ABSTRACT

Human observers can learn to recognize new categories of images from a handful of examples, yet doing so with artificial ones remains an open challenge. We hypothesize that data-efficient recognition is enabled by representations which make the variability in natural signals more predictable. We therefore revisit and improve Contrastive Predictive Coding, an unsupervised objective for learning such representations. This new implementation produces features which support state-of-the-art linear classification accuracy on the ImageNet dataset. When used as input for non-linear classification with deep neural networks, this representation allows us to use 2-5x less labels than classifiers trained directly on image pixels. Finally, this unsupervised representation substantially improves transfer learning to object detection on the PASCAL VOC dataset, surpassing fully supervised pre-trained ImageNet classifiers.

연구 동기 및 목표

자연 신호 가변성을 더 예측 가능하게 만드는 표현을 학습하여 데이터 효율적 인식을 촉진한다.
하류 선형 분리 가능성과 데이터 효율성을 극대화하도록 CPC 아키텍처와 학습을 개선한다.
CPC 사전 학습 특징이 픽셀 기반 감독 모델과 비교하여 훨씬 적은 라벨 수로도 경쟁력 있거나 우수한 성능을 달성할 수 있음을 보여 준다.
PASCAL VOC 2007에서 CPC 표현의 객체 탐지로의 전이 가능성을 보여주어 감독 사전 학습을 능가한다.
CPC 성능을 향상시키는 아키텍처 및 증강 선택에 대한 실용적인 지침을 제공한다.

제안 방법

Enhanced encoder (ResNet-161)와 패치 기반 예측 작업 확대를 통해 감독 신호를 증가시키기 위해 CPC를 재정의한다.
학습 효율성과 성능을 개선하기 위해 배치 정규화 대신 계층 정규화를 사용한다.
여러 방향(상단, 하단, 왼쪽, 오른쪽)으로 예측하여 예측 작업 수와 정확도를 늘린다.
컬러 드롭핑 및 무작위 기하학/컬러 변환을 포함한 패치 기반 증강을 적용하여 저수준 신호 의존성을 저지한다.
선형 평가를 위해 CPC 특징에서 선형 분류기를 학습하고, 필요하면 인코더와 분류기를 함께 미세조정하여 효율적인 분류를 달성한다.
PASCAL VOC 2007의 객체 탐지를 위해 Faster-RCNN으로 CPC 표현을 전이시켜 일반화 정도를 평가한다.

Figure 1: Data-efficient image recognition with Contrastive Predictive Coding. With decreasing amounts of labeled data, supervised networks trained on pixels fail to generalize (red). When trained on unsupervised representations learned with CPC, these networks retain a much higher accuracy in this

실험 결과

연구 질문

RQ1CPC를 확장하고 수정하여 데이터 효율적 이미지 인식을 향상시키는 표현을 도출할 수 있는가?
RQ2아키텍처 변화, 정규화 선택, 다방향 예측이 CPC 성능을 높이는가?
RQ3CPC 표현이 레이블이 제한된 상황에서 픽셀 기반 감독 모델과 비교해 경쟁력 있거나 우수한 성능을 가능하게 하는가?
RQ4다른 데이터셋(PASCAL VOC 2007)에서 CPC 사전 학습 표현이 객체 탐지로 효과적으로 전이되는가?

주요 결과

CPC v2는 linear ImageNet 분류에서 71.5% Top-1 정확도를 달성하며, CPC v1의 48.7%에서 상승했다.
ImageNet 라벨의 1%로 CPC 특징 위의 분류기가 78.3% Top-5 정확도를 달성(픽셀 기반 감독 학습은 1% 라벨에서 44.1% Top-5).
모든 라벨로 완전히 훈련되었을 때, CPC 기반 모델은 83.4% Top-1 및 96.5% Top-5에 도달하여 감독 ResNet-200 기준선을 능가한다.
CPC 표현은 강한 전이를 가능하게 하여 PASCAL VOC 2007 객체 탐지에서 76.6% mAP를 얻고, 감독 사전 학습(74.7% mAP)을 능가한다.
CPC 개선은 더 큰 용량(ResNet-161), 더 큰 수용 필드, 계층 정규화, 다방향 예측, 광범위한 패치 기반 증강에서 비롯된다.
CPC 기반 방법은 데이터 효율적 인식에서 라벨 전파 및 기타 자기지도 방식과 경쟁하거나 우수하다.

Figure 2: Overview of the framework for semi-supervised learning with Contrastive Predictive Coding. Left: unsupervised pre-training with the spatial prediction task (See Section 2.1 ). First, an image is divided into a grid of overlapping patches. Each patch is encoded independently from the rest w

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.