QUICK REVIEW

[논문 리뷰] Regularization via Mass Transportation

Soroosh Shafieezadeh-Abadeh, Daniel Kühn|arXiv (Cornell University)|2017. 10. 27.

Machine Learning and Algorithms참고 문헌 75인용 수 54

한 줄 요약

본 논문은 경험 분포를 둘러싼 Wasserstein 모호성 집합을 사용한 분포 강건 학습(distributionally robust learning)을 제시하고, 새로운 정규화 효과와 일반화 보장을 제공하는 계산 가능한(convex) 재형성들을 도출하며, 커널 방법(kernel methods)과 신경망으로 확장 가능하다.

ABSTRACT

The goal of regression and classification methods in supervised learning is to minimize the empirical risk, that is, the expectation of some loss function quantifying the prediction error under the empirical distribution. When facing scarce training data, overfitting is typically mitigated by adding regularization terms to the objective that penalize hypothesis complexity. In this paper we introduce new regularization techniques using ideas from distributionally robust optimization, and we give new probabilistic interpretations to existing techniques. Specifically, we propose to minimize the worst-case expected loss, where the worst case is taken over the ball of all (continuous or discrete) distributions that have a bounded transportation distance from the (discrete) empirical distribution. By choosing the radius of this ball judiciously, we can guarantee that the worst-case expected loss provides an upper confidence bound on the loss on test data, thus offering new generalization bounds. We prove that the resulting regularized learning problems are tractable and can be tractably kernelized for many popular loss functions. We validate our theoretical out-of-sample guarantees through simulated and empirical experiments.

연구 동기 및 목표

분포적 모호성 하에서의 최악의 위험으로 정규화를 제시한다.
데이터 교란에 대비하기 위해 실증 분포를 둘러싼 Wasserstein 볼 불확실성 집합을 도입한다.
이 프레임워크 하에서 선형, 커널화된, 그리고 신경망 모델에 대한 계산 가능한 볼록 재형식을 개발한다.
질량 수송(mass transportation)을 통한 고전 정규화의 확률적 해석을 제공하고 일반화 보장을 입증한다.

제안 방법

분포적 불확실성을 포착하기 위해 경험 분포를 둘러싼 Wasserstein 볼을 정의한다.
회귀/분류 손실에 대해 minimax 목적 함수로 분포적으로 강건한 학습 문제를 형식화한다.
부분적으로 아핀 손실 또는 리프시츠 손실을 갖는 선형 가설에 대해 계산 가능한 유한 볼록 재형식을 증명한다.
비선형 가설 공간을 가능하게 하는 커널화 가능한 리프팅 재형식을 제시한다.
볼록 정규화 대리 변수와 확률적 근접 최적화(stochastic proximal optimization)를 활용하여 신경망에 접근 방식을 확장한다.

실험 결과

연구 질문

RQ1Wasserstein 볼에서의 최악의 기대 손실이 유효한 샘플 외 성능 보장을 제공할 수 있는가?
RQ2일반적인 손실 함수에 대해 분포적으로 강건한 목적이 언제 실행 가능한 볼록 재형식을 허용하는가?
RQ3커널 방법 및 신경망과 같은 비선형 모델로 이 프레임워크를 어떻게 확장할 수 있는가?
RQ4Wasserstein 기반 강건성으로부터 고전적 정규화의 어떤 확률적 해석이 나타나는가?
RQ5제안된 모델이 가설 공간 복잡도에 의존하지 않고도 의미 있는 일반화 경계를 제공하는가?

주요 결과

Wasserstein 볼에서의 최악의 기대 손실이 최소한의 가정하에 테스트 손실에 대한 상한 신뢰 구간을 제공한다.
일반 손실(Huber, epsilon-insensitive, pinball, hinge, logistic)과 선형 가설의 경우, 강건한 문제는 실행 가능한 볼록 프로그램 또는 커널화 가능한 형식으로 축소된다.
이 방법은 제한된 가설 공간과 농도 결과 하에서 차원이 독립적일 수 있는 새로운 일반화 경계를 산출한다.
고전적 모델의 정규화 항은 Wasserstein 프레임워크에서 운송 비용의 극한으로 나타나 확률적 해석을 제공한다.
Wasserstein 모호성 하의 강건성은 데이터 교란에 대한 강건성과 일치하며, 출력 공간의 운송 비용이 커지면 고전적 정규화를 특수한 경우로 복원할 수 있다.
이 프레임워크는 스트레스 테스트와 보정용으로 최악의 분포를 구성적으로 계산하는 것을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.