QUICK REVIEW

[논문 리뷰] Un-regularizing: approximate proximal point and faster stochastic algorithms for empirical risk minimization

Roy Frostig, Rong Ge|arXiv (Cornell University)|2015. 06. 24.

Sparse and Compressive Sensing Techniques참고 문헌 17인용 수 68

한 줄 요약

이 논문은 강한 볼록성의 크기가 큰 정규화된 보조문제로 원래 문제를 환원하는 근사 프락시멀 포인트 방법을 사용하여 경험적 리스크 최소화(Empirical Risk Minimization, ERM)를 위한 확률적 알고리즘의 수렴 속도를 가속화하는 새로운 프레임워크를 제안한다. 이 보조문제들에 빠른 확률적 해법을 적용하고 블랙박스 환원 기법을 활용함으로써, 일반적으로 정규화에 의해 유도되는 편향 없이 가속화된 수렴 속도를 달성한다. 다양한 문제 설정에서 실행 시간이 크게 향상된다.

ABSTRACT

We develop a family of accelerated stochastic algorithms that minimize sums of convex functions. Our algorithms improve upon the fastest running time for empirical risk minimization (ERM), and in particular linear least-squares regression, across a wide range of problem settings. To achieve this, we establish a framework based on the classical proximal point algorithm. Namely, we provide several algorithms that reduce the minimization of a strongly convex function to approximate minimizations of regularizations of the function. Using these results, we accelerate recent fast stochastic algorithms in a black-box fashion. Empirically, we demonstrate that the resulting algorithms exhibit notions of stability that are advantageous in practice. Both in theory and in practice, the provided algorithms reap the computational benefits of adding a large strongly convex regularization term, without incurring a corresponding bias to the original problem.

연구 동기 및 목표

기존의 ERM를 위한 확률적 알고리즘의 최적화되지 않은 수렴 속도, 특히 조건수에 대한 의존성 문제를 해결하기 위해.
작은 정규화를 사용하는 정규화된 ERM를 풀이하는 알고리즘(가속화를 위해)과 정규화되지 않은 ERM를 풀이하는 알고리즘(편향 없는 해를 위해) 사이의 격차를 메우기 위해.
오직 큰 정규화를 가진 정규화된 보조문제만을 풀이함으로써, 정규화되지 않은 ERM에 대해서도 가속화를 가능하게 하는 블랙박스 환원 기법을 개발하기 위해.
이론적 실행 시간 보장을 향상시키고 고차원, 조건수가 나쁜 문제에서의 실용적 안정성을 향상시키기 위해.

제안 방법

프락시멀 포인트 알고리즘(PPA)의 근사 변종을 사용하여, 큰 강한 볼록성의 정규화된 보조문제를 반복적으로 풀면서 원래 목표 함수를 최소화한다.
μ-강한 볼록 함수 f의 최소화를, λ ≥ 2μ인 f(x) + (λ/2)‖x−x₀‖²의 근사 최소화로 환원한다.
내부 최소화 절차에 필요한 정확도에 대한 이론적 경계를 제공하여, 외부 루프가 조건수의 다항로그적 과부하만을 수반하면서도 선형 수렴을 보장한다.
빠른 확률적 해법(예: SVRG, SDCA)을 내부 최소화자로 사용하고, 반복 과정에서 프락시멀 항을 재중심화하는 새로운 외부 루프를 결합함으로써 가속화를 달성한다.
보조문제에서 더 큰 정규화를 허용함으로써 수치적 안정성과 수렴 속도를 향상시키지만, 원래 해에 대한 편향을 크게 유도하지 않는다.
내부 최소화자가 쌍대성에 의해 구현될 경우, 더 나은 실용적 성능을 위해 쌍대 상승 방법을 사용한다.

실험 결과

연구 질문

RQ1명시적 정규화에 의해 발생하는 편향 없이, 정규화되지 않은 ERM에 대해 가속화된 수렴을 달성할 수 있는가?
RQ2확률적 ERM 알고리즘이 문제의 조건수에 대한 의존도를 어떻게 줄일 수 있는가?
RQ3외부 루프의 선형 수렴을 보장하기 위해 내부 최소화에서 필요한 근사 정확도는 어느 정도인가?
RQ4보조문제에서 큰 정규화를 사용하여 수렴의 안정성과 가속화를 도모하면서도 원래 문제의 정확한 해를 회복할 수 있는가?
RQ5실제로 SGD, SVRG, SDCA와 같은 표준 알고리즘과 비교했을 때, 제안된 프레임워크는 안정성과 수렴 속도 측면에서 어떻게 다른가?

주요 결과

제안된 가속화된 근사 프락시멀 포인트 알고리즘은 원래 ERM 문제에 대해 O(1/c)의 수렴 속도를 달성하며, 정규화된 보조문제를 풀이하는 데 비해 O(√(⌈λ/μ⌉)polylog(λ/μ))의 런타임 오버헤드를 가진다.
이 방법은 강한 볼록성과 미분 가능성 조건 하에서 ERM에 대해 가속화를 가능하게 하여, 이전 알고리즘들보다 조건수에 대한 의존도가 최적화되지 않았거나 작은 정규화가 필요했던 알고리즘들보다 개선된 성능을 보인다.
실험 결과에 따르면, 이중 APPA(Dual APPA, 제안된 알고리즘)는 MNIST, CIFAR, Protein 등의 다양한 데이터셋에서, 특히 하이퍼파rameter 설정이 좋지 않을 경우에도 뛰어난 안정성과 수렴 특성을 보였다.
SDCA와 APPA의 성능은 λ 증가에 따라 더 유연하게 악화되는 반면, SGD와 SVRG는 λ가 과대평가될 경우 급격한 발산을 보였다.
SDCA가 수렴까지 실행된 경우조차도 APPA가 도달한 최종 목표 함수 값은 항상 낮았으며, 이는 프락시멀 항의 재중심화가 해의 질을 향상시킨다는 것을 시사한다.
선형 최소제곱과 로지스틱 회귀를 포함한 다양한 문제 설정에서, 보조문제에서 큰 정규화를 효과적으로 활용함으로써 최신 기술보다 더 빠른 수렴 속도를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.