QUICK REVIEW

[논문 리뷰] EnAET: Self-Trained Ensemble AutoEncoding Transformations for Semi-Supervised Learning.

Xiao Wang, Daisuke Kihara|arXiv (Cornell University)|2019. 11. 21.

Domain Adaptation and Few-Shot Learning참고 문헌 16인용 수 33

한 줄 요약

EnAET는 공간적 및 비공간적 데이터 증강을 활용하여 자기학습형 앙상블 자동에코드 변환을 제안함으로써 준지도 학습 성능을 향상시킨다. 다양한 변환을 복원함으로써 강건한 표현을 학습함으로써 EnAET는 최신 기술 수준의 성능을 달성하여, CIFAR-10에서 1.99%의 오차, STL10에서 4.52%의 오차를 기록하며, 동일한 아키텍처를 사용한 완전 준지도 학습 모델을 초월한다.

ABSTRACT

Deep neural networks have been successfully applied to many real-world applications. However, these successes rely heavily on large amounts of labeled data, which is expensive to obtain. Recently, Auto-Encoding Transformation (AET) and MixMatch have been proposed and achieved state-of-the-art results for unsupervised and semi-supervised learning, respectively. In this study, we train an Ensemble of Auto-Encoding Transformations (EnAET) to learn from both labeled and unlabeled data based on the embedded representations by decoding both spatial and non-spatial transformations. This distinguishes EnAET from conventional semi-supervised methods that focus on improving prediction consistency and confidence by different models on both unlabeled and labeled examples. In contrast, we propose to explore the role of self-supervised representations in semi-supervised learning under a rich family of transformations. Experiment results on CIFAR-10, CIFAR-100, SVHN and STL10 demonstrate that the proposed EnAET outperforms the state-of-the-art semi-supervised methods by significant margins. In particular, we apply the proposed method to extremely challenging scenarios with only 10 images per class, and show that EnAET can achieve an error rate of 9.35% on CIFAR-10 and 16.92% on SVHN. In addition, EnAET achieves the best result when compared with fully supervised learning using all labeled data with the same network architecture. The performance on CIFAR-10, CIFAR-100 and SVHN with a smaller network is even more competitive than the state-of-the-art of supervised learning methods based on a larger network. We also set a new performance record with an error rate of 1.99% on CIFAR-10 and 4.52% on STL10. The code and experiment records are released at this https URL.

연구 동기 및 목표

딥 러닝에서 레이블 데이터의 높은 비용을 해결하기 위해 준지도 학습 성능을 향상시키는 것.
다양한 데이터 변환에서 유도된 자기지도 학습 표현의 역할을 탐구하는 것.
레이블된 데이터와 레이블이 없는 데이터를 함께 사용하여 표현 학습과 예측 일致성을 동시에 최적화하는 방법을 개발하는 것.
예를 들어, 클래스당 레이블이 10개 뿐인 극도로 낮은 데이터 가용성 조건에서도 뛰어난 성능을 달성하는 것.
기존 준지도 학습 방법뿐만 아니라 동일한 네트워크 아키텍처를 사용한 완전 준지도 학습 모델을 초월하는 것.

제안 방법

EnAET는 입력 데이터의 공간적 및 비공간적 변환을 복원하기 위해 앙상블 자동에코더를 훈련시킨다.
동일한 입력에 적용된 변환을 복원함으로써 공유 표현을 학습함으로써 특징의 강건성을 향상시킨다.
레이블된 데이터에 대한 지도 학습과 레이블이 없는 데이터에 대한 자기지도 대비 학습을 변환 일치성을 통해 통합한다.
다양한 변환을 활용하여 데이터의 다양성을 증가시키고 일반화 능력을 향상시킨다.
최종 예측은 자동에코드 헤드의 앙상블을 사용하여 수행되며, 불확실성 추정과 강건성을 향상시킨다.
재구성 손실과 일致성 정규화를 조합하여 엔드 투 엔드로 프레임워크를 훈련시킨다.

실험 결과

연구 질문

RQ1다양한 변환을 통해 학습된 자기지도 학습 표현이 준지도 학습 성능을 향상시킬 수 있는가?
RQ2EnAET는 클래스당 10장의 이미지만 있는 극도로 레이블이 부족한 조건에서 어떻게 성능을 내는가?
RQ3EnAET는 동일한 모델 아키텍처를 사용할 때 완전 준지도 학습을 초월할 수 있는가?
RQ4공간적 및 비공간적 변환을 모두 사용하는 것이 기존 방법보다 더 나은 표현 학습을 이끌 수 있는가?
RQ5소량의 레이블 예제만을 사용하는 준지도 학습의 성능 상한선은 무엇인가?

주요 결과

EnAET는 CIFAR-10에서 기존 최신 기술 수준을 뛰어넘는 새로운 최신 기술 수준 오차율 1.99%를 기록했다.
STL10에서는 4.52%의 오차율로 새로운 기록을 수립하여 강력한 일반화 능력을 입증했다.
클래스당 레이블이 10장 뿐인 조건에서, CIFAR-10에서는 9.35%의 오차율, SVHN에서는 16.92%의 오차율을 기록하며 이전 방법들을 크게 앞섰다.
CIFAR-10, CIFAR-100, SVHN에서 동일한 네트워크 아키텍처를 사용해 훈련했을 때, EnAET는 모든 레이블 데이터를 사용한 완전 준지도 학습 모델을 초월했다.
더 작은 네트워크를 사용해도 경쟁 가능한 성능을 달성했으며, 더 큰 아키텍처로 훈련된 최신 기술 수준의 지도 학습 방법을 뛰어넘기도 하였다.
코드와 실험 결과가 공개되어 재현성과 향후 연구를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.