QUICK REVIEW

[논문 리뷰] Fast Rates for General Unbounded Loss Functions: from ERM to Generalized Bayes

Peter Grünwald, Nishant A. Mehta|arXiv (Cornell University)|2016. 05. 01.

Machine Learning and Algorithms참고 문헌 62인용 수 33

한 줄 요약

이 논문은 무거운 尾 분포 하에서 일반적인 유계가 아닌 손실 함수—예를 들어 로그 손실과 제곱 손실—에 대해 빠른 초과 위험 수렴 속도를 확립한다. 이는 초과 손실의 하측 꼬리와 상측 꼬리를 제어하기 위해 v-GRIP 조건과 워치독 조건을 도입함으로써, 모델 불일치가 있을 경우조차도 경험 위험 최소화, MDL, η-일반화 베이지안 추정기의 빠른 수렴 속도를 가능하게 한다.

ABSTRACT

We present new excess risk bounds for general unbounded loss functions including log loss and squared loss, where the distribution of the losses may be heavy-tailed. The bounds hold for general estimators, but they are optimized when applied to $η$-generalized Bayesian, MDL, and empirical risk minimization estimators. In the case of log loss, the bounds imply convergence rates for generalized Bayesian inference under misspecification in terms of a generalization of the Hellinger metric as long as the learning rate $η$ is set correctly. For general loss functions, our bounds rely on two separate conditions: the $v$-GRIP (generalized reversed information projection) conditions, which control the lower tail of the excess loss; and the newly introduced witness condition, which controls the upper tail. The parameter $v$ in the $v$-GRIP conditions determines the achievable rate and is akin to the exponent in the Tsybakov margin condition and the Bernstein condition for bounded losses, which the $v$-GRIP conditions generalize; favorable $v$ in combination with small model complexity leads to $ ilde{O}(1/n)$ rates. The witness condition allows us to connect the excess risk to an "annealed" version thereof, by which we generalize several previous results connecting Hellinger and Rényi divergence to KL divergence.

연구 동기 및 목표

통계학적 학습에서 빠른 수렴 속도를 비유계 손실 함수와 잠재적으로 무거운 꼬리 분포로 확장하기 위해.
이전 이론의 한계를 극복하기 위해, 유계 손실이나 베르누이 조건과 같은 강력한 조건을 요구하는 것을 피하기 위해.
모델 불일치 하에서 ERM, MDL, 일반화 베이지안에 대한 기존의 빠른 수렴 속도 결과를 통합하고 일반화하기 위해.
학습률 η를 갖는 일반화 베이지안 및 MDL 추정기의 최적화를 위한 초과 위험 경계를 제공하기 위해.
약한, 비유계 손실 가정 하에서 PAC-베이지안과 일반화 베이지안 방법 간의 연결 고리를 명확히 하기 위해.

제안 방법

초과 손실의 하측 꼬리 제어를 위해 v-GRIP 조건을 도입하여, 비유계 손실에 대해 Tsybakov 마진 조건과 베르누이 조건을 일반화한다.
초과 손실의 상측 꼬리 제어를 위해 워치독 조건을 제안하여, 초과 위험과 데신화된 초과 위험 간의 연결 고리를 가능하게 한다.
모든 추정기의 일반적인 초과 위험 경계를 유도하며, 이는 ERM, MDL, η-일반화 베이지안 추정기에 최적화되어 있다.
워치독 조건을 사용하여 Rényi 산란도와 KL 산란도 간의 연결 고리를 일반화하여, 유계에서 비유계 설정으로 결과를 확장한다.
경계를 로그 손실과 제곱 손실에 적용하여, 모델 불일치 하에서 η-일반화 베이지안 추론의 수렴 속도를 보여준다.
v-GRIP 및 워치독 조건이 유계 초과 손실가 없는 경우에도 성립할 수 있음을 입증하며, 특히 비유계 초과 손실 상황에서 그렇다.

실험 결과

연구 질문

RQ1무거운 꼬리 분포 하에서 일반적인 비유계 손실 함수에 대해 빠른 수렴 속도를 달성할 수 있는가?
RQ2비유계 손실에 대해 Tsybakov 마진 조건과 베르누이 조건을 일반화하는 조건은 무엇인가?
RQ3v-GRIP 및 워치독 조건은 유계 초과 손실가 없는 상황에서 어떻게 빠른 수렴 속도를 가능하게 하는가?
RQ4어떤 설정에서 일반화 베이지안 및 MDL 추정기가 모델 불일치 하에서도 빠른 수렴 속도를 달성하는가?
RQ5약한, 비유계 손실 가정 하에서 PAC-베이지안과 일반화 베이지안 방법 간의 연결 고리를 형식화할 수 있는가?

주요 결과

v-GRIP 조건은 초과 손실의 하측 꼬리를 제어하며, 비유계 손실에 대해 Tsybakov 마진 조건과 베르누이 조건을 일반화한다.
워치독 조건은 초과 손실의 상측 꼬리를 제어하며, Rényi 산란도와 KL 산란도 간의 연결 고리를 비유계 설정으로 일반화할 수 있게 한다.
로그 손실의 경우, 경계는 η-일반화 베이지안 추론이 모델 불일치 하에서도 일반화된 헬링거 메트릭을 사용해 빠른 수렴 속도를 보임을 암시한다.
v가 유리하고 모델 복잡도가 낮을 경우, 비유계 손실 상황에서도 경계는 Õ(1/n) 수렴 속도를 달성한다.
v-GRIP 및 워치독 조건은 베르누이 조건이 실패하는 경우, 예를 들어 비유계 평균을 갖는 정규 위치 가족에서조차도 성립할 수 있다.
결과는 ERM, MDL, η-일반화 베이지안을 포함한 일반 추정기로 확장되며, 가산 수의 모델 합집합으로까지 확장 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.