QUICK REVIEW

[논문 리뷰] Learning by Association - A versatile semi-supervised training method for neural networks

Philip Häusser, Alexander Mordvintsev|arXiv (Cornell University)|2017. 06. 03.

Domain Adaptation and Few-Shot Learning참고 문헌 32인용 수 54

한 줄 요약

라벨이 있는 데이터와 라벨이 없는 데이터의 임베딩 간의 사이클-일관성 연관을 형성하고 최적화하여 학습하는 차별화 가능한 반지도학습 프레임워크로, 특히 희소한 라벨에서 분류 성능을 향상시킵니다.

ABSTRACT

In many real-world scenarios, labeled data for a specific machine learning task is costly to obtain. Semi-supervised training methods make use of abundantly available unlabeled data and a smaller number of labeled examples. We propose a new framework for semi-supervised training of deep neural networks inspired by learning in humans. "Associations" are made from embeddings of labeled samples to those of unlabeled ones and back. The optimization schedule encourages correct association cycles that end up at the same class from which the association was started and penalizes wrong associations ending at a different class. The implementation is easy to use and can be added to any existing end-to-end training setup. We demonstrate the capabilities of learning by association on several data sets and show that it can improve performance on classification tasks tremendously by making use of additionally available unlabeled data. In particular, for cases with few labeled data, our training scheme outperforms the current state of the art on SVHN.

연구 동기 및 목표

라벨 데이터 확보가 비용이 많이 들 때 반지도학습을 동기화한다.
비라벨 데이터를 활용해 의미 있는 임베딩을 학습하는 차별화 가능한 연관 기반 프레임워크를 도입한다.
기존 네트워크를 확장할 수 있는 엔드투엔드 구현을 제공한다.
MNIST, SVHN, STL-10에서 특히 적은 수의 라벨 샘플로 성능 향상을 시연한다.

제안 방법

네트워크를 통해 라벨링된 데이터 A와 비라벨 데이터 B의 배치를 전달하여 A와 B의 임베딩을 얻는다.
점곱 유사도에 대해 소프트맥스를 적용해 P^{ab}와 P^{ba}를 계산한다.
P^{aba} = P^{ab} P^{ba}인 왕복 확률을 정의하고 시작점과 같은 클래스에서 끝나는 올바른 경로를 최대화한다.
정확한 클래스 왕복에 대한 균일한 타깃과 P^{aba} 간의 교차 엔트로피로 워커 손실을 사용한다.
방문 손실을 추가하여 모든 비라벨 샘플을 방문하도록 유도하고 균일한 타깃과 방문 확률 P^{visit} 간의 교차 엔트로피로 한다.
선택적으로 분류 손실을 포함해 임베딩을 타깃 작업의 클래스 로짓으로 매핑한다.
필요에 따라 데이터 증강을 사용한 TensorFlow와 함께 Adam으로 엔드투엔드로 학습한다.

실험 결과

연구 질문

RQ1라벨이 있는 임베딩과 비라벨 임베딩 간의 사이클-일관성 연관이 반지도 학습의 성능을 향상시킬 수 있는가?
RQ2워커 손실과 방문 손실이 임베딩 품질과 일반화에 어떤 영향을 미치는가?
RQ3MNIST, SVHN, STL-10에서 비라벨 데이터를 활용할 때 실험적 이득은 무엇인가?
RQ4도메인 적응 시나리오에서 이 접근 방식의 성능은 어떠한가?

주요 결과

이 방법은 MNIST와 SVHN에서 경쟁력 있는 결과를 얻고, SVHN에서 라벨이 500개일 때 최첨단을 넘겼다.
비라벨 데이터를 연관 학습에 활용하면 성능이 향상되며, 예를 들어 500개의 라벨 샘플이 있는 SVHN에서 테스트 오류가 17.75%에서 6.25%로 감소했다.
방문 손실은 MNIST에서 결정적이며 SVHN에 유익하며, 적절한 가중치가 성능을 개선한다.
라벨/비라벨 데이터가 다양한 SVHN에서 비라벨 데이터가 증가함에 따라 테스트 오류가 지속적으로 감소한다(예: 모든 데이터 설정에서 3.09%에서 2.69%로 감소).
도메인 적응 실험에서 이 방법은 일부 기준선에 비해 대상 도메인 오류를 현저히 감소시키는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.