Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Surrogate Losses

Josif Grabocka, Randolf Scholz|arXiv (Cornell University)|2019. 05. 24.
Domain Adaptation and Few-Shot Learning참고 문헌 23인용 수 27
한 줄 요약

이 논문은 AUC, F1, Jaccard Index, MCR와 같은 비미분 가능하고 분해 불가능한 기계학습 목표를 최소화하기 위해 신경망으로 학습 가능한 부드럽고 미분 가능한 대체 손실을 학습하는 새로운 오프더쇼프 최적화 프레임워크를 제안한다. 이중 최적화를 통해 예측 모델과 대체 손실 네트워크를 함께 훈련시킴으로써, 아홉 가지 다양한 데이터셋에서 수작업으로 만든 대체 손실보다 뛰어난 성능을 달성한다.

ABSTRACT

The minimization of loss functions is the heart and soul of Machine Learning. In this paper, we propose an off-the-shelf optimization approach that can minimize virtually any non-differentiable and non-decomposable loss function (e.g. Miss-classification Rate, AUC, F1, Jaccard Index, Mathew Correlation Coefficient, etc.) seamlessly. Our strategy learns smooth relaxation versions of the true losses by approximating them through a surrogate neural network. The proposed loss networks are set-wise models which are invariant to the order of mini-batch instances. Ultimately, the surrogate losses are learned jointly with the prediction model via bilevel optimization. Empirical results on multiple datasets with diverse real-life loss functions compared with state-of-the-art baselines demonstrate the efficiency of learning surrogate losses.

연구 동기 및 목표

  • AUC, F1, Jaccard Index와 같이 경사 하강법로 직접 최소화할 수 없는 비미분 가능하고 분해 불가능한 손실 함수 최적화의 과제를 해결하기 위해.
  • 수작업으로 만든 대체 허용을 제거하기 위해 작업에 특화된 대체 손실을 엔드 투 엔드로 학습하기 위해.
  • 대체 손실 학습 과정을 이중 최적화 문제로 공식화하여 예측 모델과 대체 손실 네트워크의 공동 훈련을 가능하게 하기 위해.
  • 데이터셋에 특화된 대체 손실 학습이 보편적 또는 사전 훈련된 대체 손실보다 더 나은 일반화를 이끌어내는지 입증하기 위해.
  • 진짜 손실의 기울기가 필요 없이도 어떤 비미분 가능한 손실 함수에나 적용 가능한 일반 목적의 오프더쇼프 최적화 프레임워크를 제공하기 위해.

제안 방법

  • 이 방법은 미니배치를 기반으로 진짜 비미분 가능한 손실 함수를 근사하는 가속 가능한 신경망으로서의 대체 손실을 정의한다.
  • 대체 네트워크는 집합 기반으로, 미니배치 내 인스턴스의 순서에 대해 불변이므로 비분해 가능한 손실을 적절히 처리할 수 있다.
  • 대체 손실은 이중 최적화를 통해 훈련된다: 외부 루프는 훈련 세트에서 진짜 손실을 최소화하고, 내부 루프는 대체 네트워크가 진짜 손실을 따라잡도록 최적화한다.
  • 예측 모델과 대체 손실 네트워크를 함께 훈련하기 위해 교차 최적화 알고리즘을 사용하며, 기울기가 대체 네트워크를 통해 역전파된다.
  • 이 방법은 진짜 손실을 블랙박스 함수로 간주하여 모델 파라미터에 대한 명시적 기울기 계산이 필요 없도록 한다.
  • 이 방법은 보편적인 대체 손실에 의존하는 대신 데이터셋 별로 대체 손실을 학습함으로써 정확도와 적응 능력을 향상시킨다.

실험 결과

연구 질문

  • RQ1비미분 가능한 진짜 손실 함수를 정확히 근사하는 부드럽고 미분 가능한 대체 손실을 학습할 수 있는 신경망을 훈련시킬 수 있는가?
  • RQ2데이터셋에 특화된 대체 손실 학습이 일반 목적 또는 수작업으로 만든 대체 허용을 능가하는가?
  • RQ3이중 최적화가 진짜 손실의 기울기가 필요 없이 예측 모델과 대체 손실 네트워크의 공동 훈련을 가능하게 하는가?
  • RQ4제안된 방법은 복잡한 비분해 가능한 손실을 지닌 실세계 데이터셋에 대해 충분히 확장 가능하고 효율적인가?
  • RQ5다양한 손실 함수에 대해 최종 모델 성능 측면에서 대체 손실 학습은 최신 기준보다 어떻게 비교되는가?

주요 결과

  • 모든 네 가지 손실 함수(MCR, AUC, F1, JAC)에 대해 아홉 개의 데이터셋에서 대체 손실 학습(SL-R)이 모든 최신 기준보다 낮은 테스트 손실을 기록했다.
  • 평균적으로 SL-R는 MCR에 대해 9개 중 5.5개, AUC에 대해 8.0개, JAC에 대해 5.5개, F1에 대해 6.0개의 데이터셋에서 승리하여 일관된 우수성을 보였다.
  • IJC 데이터셋에서 SL-R는 AUC 0.0030을 달성했으며, 이는 다음으로 우수한 기준(GO)의 0.0258보다 뚜렷이 높았다.
  • SUSY 데이터셋에서 SL-R는 F1 손실을 0.2289로 줄였고, 비용 감도 기반 기준의 0.2420보다 성능이 향상되었다.
  • AUC와 JAC에 대해 모든 데이터셋에서 최신 기준 성능을 달성했으며, SL-R는 항상 Lovasz Soft-Max 및 쌍별 랭킹 기준보다 뛰어났다.
  • 가장 큰 데이터셋(SUSY)의 경우 단일 GPU에서 약 1일 4시간의 훈련 시간을 소요하여 추가적인 복잡성에도 불구하고 실용적인 타당성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.