QUICK REVIEW

[논문 리뷰] Online and Stochastic Gradient Methods for Non-decomposable Loss Functions

Purushottam Kar, Harikrishna Narasimhan|arXiv (Cornell University)|2014. 10. 24.

Stochastic Gradient Optimization Techniques참고 문헌 8인용 수 29

한 줄 요약

이 논문은 정밀도@k와 pAUC와 같은 비분해 가능한 손실 함수를 위한 새로운 온라인 및 스 tochastic 그래디언트 프레임워크를 제안한다. 이는 불균형 학습에서 핵심적인 역할을 한다. 구조적 레이팅 리스트에 기반한 레지메이션 경계를 통해 비선형적 일관성 경계를 확립하고, 경험적 리스크 최소화자에 대해 증명 가능한 수렴성을 보장하는 확장 가능한 해법을 개발하여, 커팅 플레인 방법보다 속도 면에서 수개의 차수를 앞서는 성능을 보인다.

ABSTRACT

Modern applications in sensitive domains such as biometrics and medicine frequently require the use of non-decomposable loss functions such as precision@k, F-measure etc. Compared to point loss functions such as hinge-loss, these offer much more fine grained control over prediction, but at the same time present novel challenges in terms of algorithm design and analysis. In this work we initiate a study of online learning techniques for such non-decomposable loss functions with an aim to enable incremental learning as well as design scalable solvers for batch problems. To this end, we propose an online learning framework for such loss functions. Our model enjoys several nice properties, chief amongst them being the existence of efficient online learning algorithms with sublinear regret and online to batch conversion bounds. Our model is a provable extension of existing online learning models for point loss functions. We instantiate two popular losses, prec@k and pAUC, in our model and prove sublinear regret bounds for both of them. Our proofs require a novel structural lemma over ranked lists which may be of independent interest. We then develop scalable stochastic gradient descent solvers for non-decomposable loss functions. We show that for a large family of loss functions satisfying a certain uniform convergence property (that includes prec@k, pAUC, and F-measure), our methods provably converge to the empirical risk minimizer. Such uniform convergence results were not known for these losses and we establish these using novel proof techniques. We then use extensive experimentation on real life and benchmark datasets to establish that our method can be orders of magnitude faster than a recently proposed cutting plane method.

연구 동기 및 목표

비분해 가능한 손실 함수인 F-측정, 정밀도@k, pAUC와 같은 것들에 대한 원칙적인 온라인 및 스 tochastic 최적화 방법의 부족을 해결하기 위해.
기존의 분해 가능한 손실 함수에 대한 모델을 일반화하면서도, 점진적 학습과 온라인에서 배치로의 변환을 가능하게 하는 온라인 학습 프레임워크를 설계하기 위해.
비분해 가능한 손실 함수의 광범위한 클래스에 대해 증명 가능한 수렴성을 보장하는 스 tochastic 그래디언트 해법을 개발하기 위해.
레이팅 리스트에 대한 새로운 구조적 레지메이션에 기반한 이론적 보장을 제공하기 위해, 특히 비선형적 일관성 경계와 경험적 리스크 최소화자 수렴을 확립하기 위해.

제안 방법

안정성 기반 접근을 통해순간적 손실을 정의함으로써, 비분해 가능한 손실 함수를 위한 원칙적인 온라인 학습 프레임워크를 제안하며, 이는 분해 가능한 손실 함수에 적용했을 때 기존의 온라인 모델과의 호환성을 보장한다.
프레임워크 내에서 Follow-the-Regularized-Leader (FTRL) 알고리즘을 도입하고, 일반적인 안정성 조건 하에서 ${\cal O}(1/\sqrt{T})$의 경계를 증명한다.
정밀도@k와 pAUC의 볼록 대체 손실 함수에 프레임워크를 적용하고, 레이팅 리스트 측정치의 리프시츠 연속성에 기반한 새로운 구조적 레지메이션을 통해 비선형적 일관성 경계를 증명한다.
구조적 레지메이션을 활용하여 균일 수렴 유형의 결과를 도입함으로써, 비분해 가능한 손실 함수를 위한 스 tochastic 그래디언트 하강 해법을 개발한다.
pAUC에 대해 효율적인 1PMB 및 2PMB 루틴을 구현하여 상위 순위의 음성 샘플을 필터링하고, 양성 샘플과 필터링된 음성 샘플 간의 부분도를 계산함으로써, 에포크당 ${\cal O}(s\log s)$의 복잡도를 달성한다.
pAUC에 대한 대체 손실 수식을 사용한다: $\ell_{\text{pAUC}}({\mathbf{w}}) = \sum_{i:y_i>0} \ell^{+}_{S_-}(x_i, {\mathbf{w}})$, 여기서 $\ell^{+}_{S_-}$는 상위-$\beta$ 분율의 음성 샘플에 대해 허프 손실을 집계한다.

실험 결과

연구 질문

RQ1비분해 가능한 손실 함수에 대해 기존의 분해 가능한 손실 함수 모델을 일반화하면서도 점진적 학습과 온라인에서 배치로의 변환을 허용하는 원칙적인 온라인 학습 프레임워크를 설계할 수 있는가?
RQ2안정성 조건 하에서 비분해 가능한 손실 함수인 정밀도@k와 pAUC에 대해 온라인 학습에서 비선형적 일관성 경계 경계가 유지되는가?
RQ3비분해 가능한 손실 함수인 pAUC와 F-측정에 대해 스 tochastic 그래디언트 방법이 경험적 리스크 최소화자로 수렴함을 증명할 수 있는가?
RQ4비분해 가능한 손실 함수의 균일 수렴성과 경계 분석을 가능하게 하는 레이팅 리스트의 새로운 구조적 성질은 무엇인가?

주요 결과

제안된 온라인 프레임워크는 안정성 조건 하에서 정밀도@k와 pAUC에 대해 ${\cal O}(1/\sqrt{T})$의 경계를 달성하며, 이러한 비분해 가능한 손실 함수에 대해 처음으로 증명 가능한 비선형적 일관성 경계를 확립한다.
내부 곱의 정렬된 리스트에 대한 새로운 구조적 레지메이션을 통해 레이팅 리스트 측정치의 리프시츠 연속성을 증명함으로써, 경계 및 수렴 분석을 가능하게 한다.
pAUC, 정밀도@k, F-측정에 대한 스 tochastic 그래디언트 해법은 경험적 리스크 최소화자로 증명 가능한 수렴성을 보이며, 새로운 균일 수렴 유형의 결과를 통해 이를 입증한다.
KDD 2008 데이터셋에서, 이 방법은 30ms 내에 pAUC 64.8%를 달성했으며, 유사한 성능을 내기 위해 1.2초 이상 소요된 커팅 플레인 방법보다 뛰어난 성능을 보였다.
실제 및 벤치마크 데이터셋에서 정확도를 유지하거나 향상시키면서도, 최신의 커팅 플레인 기법보다 수개의 차수를 앞서는 속도를 기록했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.