Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Loss Functions for Semi-supervised Learning via Discriminative Adversarial Networks

Cícero Nogueira dos Santos, Kahini Wadhawan|arXiv (Cornell University)|2017. 07. 07.
Generative Adversarial Networks and Image Synthesis참고 문헌 37인용 수 24
한 줄 요약

이 논문은 생성자-판별자 쌍 대신 두 개의 판별자만을 사용하여 예측기의 손실 함수를 학습하는 새로운 프레임워크인 판별적 적대적 네트워크(DAN)를 제안한다. 예측기와 심판 네트워크를 적대적으로 훈련시킴으로써 DAN은 효과적인 준지도 학습을 가능하게 하고, 표준 손실 함수(예: 쌍별 손실 및 음의 로그우도)보다 경쟁적인 손실 함수를 자동으로 학습한다. 특히 라벨이 적은 데이터에서 뛰어난 성능을 발휘한다.

ABSTRACT

We propose discriminative adversarial networks (DAN) for semi-supervised learning and loss function learning. Our DAN approach builds upon generative adversarial networks (GANs) and conditional GANs but includes the key differentiator of using two discriminators instead of a generator and a discriminator. DAN can be seen as a framework to learn loss functions for predictors that also implements semi-supervised learning in a straightforward manner. We propose instantiations of DAN for two different prediction tasks: classification and ranking. Our experimental results on three datasets of different tasks demonstrate that DAN is a promising framework for both semi-supervised learning and learning loss functions for predictors. For all tasks, the semi-supervised capability of DAN can significantly boost the predictor performance for small labeled sets with minor architecture changes across tasks. Moreover, the loss functions automatically learned by DANs are very competitive and usually outperform the standard pairwise and negative log-likelihood loss functions for both semi-supervised and supervised learning.

연구 동기 및 목표

  • 준지도 학습에서 라벨이 있는 데이터와 라벨이 없는 데이터를 모두 반영하는 효과적인 손실 함수를 설계하는 문제를 해결하기 위해.
  • 수동으로 설계하거나 데이터 생성에 의존하지 않고도 최적의 손실 함수를 암묵적으로 학습하는 프레임워크를 개발하기 위해.
  • 텍스트와 같은 이산형 데이터 생성이 어려운 자연어 처리 분야에서, 순서 매기기 및 텍스트 분류와 같은 구조적 예측 작업을 위한 준지도 학습을 가능하게 하기 위해.
  • 라벨이 적은 데이터셋에서 불확실한 데이터를 적대적 훈련을 통해 활용하여 모델 성능을 향상시키기 위해.
  • 아키텍처에 종속되지 않는 안정적인 손실 함수 학습 방법을 제공하여 다양한 작업에 일반화 가능하게 하기 위해.

제안 방법

  • DAN은 두 개의 판별자인 예측기 P와 심판 J를 사용한다. 예측기 P는 입력 x를 출력 y로 매핑하고, 심판 J는 진짜 (x, y) 쌍과 예측된 (x, y) 쌍을 구분한다.
  • 예측기 P는 심판 J가 자신의 예측을 진짜로 판단하도록 속이도록 훈련되어, 임의의 작업에 특화된 손실 함수를 암묵적으로 학습한다.
  • 심판 J는 진짜 라벨이 있는 쌍과 예측된 쌍을 정확히 분류하도록 훈련되어, 손실 함수의 형태를 결정짓는 최소-최대 게임을 형성한다.
  • 이 프레임워크는 데이터 생성을 방지하므로, 기존 GAN과 달리 텍스트와 같은 이산형 데이터에 적합하다.
  • 훈련 안정성을 향상시키기 위해 심판 네트워크용 새로운 스코어 함수를 도입한다.
  • 간단한 아키텍처를 사용하여 DAN 프레임워크의 기여도를 분리하기 위해, 텍스트 분류(CNN 기반) 및 답변 문장 선택(순위 매기기)에 대해 구현하였다.

실험 결과

연구 질문

  • RQ1데이터 생성이 필요 없이 두 개의 판별자로 구성된 적대적 프레임워크가 예측기의 효과적인 손실 함수를 학습할 수 있는가?
  • RQ2라벨이 적은 데이터에서 DAN 프레임워크는 준지도 학습 성능을 어떻게 향상시키는가?
  • RQ3자동으로 학습된 손실 함수가 음의 로그우도나 쌍별 순위 매기기 손실과 같은 표준 손실 함수를 능가할 수 있는가?
  • RQ4라벨 데이터가 증가함에 따라 DAN이 순위 매기기 작업에서는 더 효과적인데, 왜 텍스트 분류에서는 그렇지 않은가?
  • RQ5다양한 예측 작업에 대해 DAN 훈련을 안정화시키기 위해 필요한 아키텍처 및 훈련 수정 사항은 무엇인가?

주요 결과

  • SelQA 데이터셋에서 10개의 라벨이 있는 CNN-DAN은 MAP 0.5749를 기록하여, CNN-hinge_loss(0.4610)보다 유의미하게 뛰어나, 준지도 학습에서의 성과 향상을 입증했다.
  • WikiQA 순위 매기기 작업에서 CNN-DAN은 10개의 라벨이 있는 조건에서 MAP 0.5437을 달성하여, 베이스라인 CNN-hinge_loss(0.5447)를 능가했으며, MRR 및 NDCG에서도 일관된 향상을 보였다.
  • SelQA에서의 준지도 버전인 CNN-DANunlab.은 라벨이 10개뿐이지만 MAP 0.6891을 기록하여, 라벨이 없는 데이터로부터의 성능 향상이 뚜렷하게 나타났다.
  • SSTB2 감성 분류 데이터셋에서 CNN-DAN은 10개의 라벨이 있는 조건에서 63.25%의 정확도를 기록하여, CNNnll(60.42%)을 능가했으며, 학습된 손실 함수가 음의 로그우도보다 더 효과적임을 보였다.
  • DAN 프레임워크는 감독 학습 설정에서도 경쟁 가능한 손실 함수를 학습했으며, 전체 SSTB2 데이터셋에서 CNN-DAN은 CNNnll(84.38%)보다 높은 84.70%의 정확도를 기록했다.
  • 훈련 안정성 문제에도 불구하고 CNN-DANunlab.은 라벨이 적은 데이터셋에서 뚜렷한 성능 향상을 보였으며, 이는 라벨 데이터가 부족할 경우 프레임워크가 특히 효과적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.