QUICK REVIEW

[논문 리뷰] Tight Complexity Bounds for Optimizing Composite Objectives

Blake Woodworth, Nathan Srebro|arXiv (Cornell University)|2016. 05. 25.

Stochastic Gradient Optimization Techniques참고 문헌 20인용 수 55

한 줄 요약

이 논문은 기울기 및 프록시 오라클을 사용하여 m개의 볼록 함수의 평균을 최소화하는 데 필요한 복잡도의 날것의 경계를 설정하며, 가속화된 기울기 하강법(AGD)과 가속화된 SVRG가 각각 결정론적 및 랜덤화된 설정에서 최적이 됨을 증명한다. 비미분 가능 함수의 경우 프록시 오라클이 복잡도를 감소시키며, 미분 가능 함수의 경우 기울기 접근으로도 충분함을 보여주며, 결정론적 및 랜덤화된 최적화 복잡도 사이에 상당한 격차가 있음을 드러낸다.

ABSTRACT

We provide tight upper and lower bounds on the complexity of minimizing the average of $m$ convex functions using gradient and prox oracles of the component functions. We show a significant gap between the complexity of deterministic vs randomized optimization. For smooth functions, we show that accelerated gradient descent (AGD) and an accelerated variant of SVRG are optimal in the deterministic and randomized settings respectively, and that a gradient oracle is sufficient for the optimal rate. For non-smooth functions, having access to prox oracles reduces the complexity and we present optimal methods based on smoothing that improve over methods using just gradient accesses.

연구 동기 및 목표

m개의 볼록 함수의 평균을 최소화하기 위해 필요한 기울기 및 프록시 오라클 호출 수의 날것의 상한 및 하한을 설정하는 것.
비미분 가능 및 미분 가능 최적화에서 프록시 오라클과 기울기 오라클의 상대적 능력을 명확히 하는 것.
유한합 최적화에서 결정론적 알고리즘과 랜덤화 알고리즘 간의 복잡도 격차를 조사하는 것.
AGD, SVRG, 가속화된 SDCA와 같은 기존 방법들이 로그 인자까지 최적이 됨을 증명하는 것.
특히 m=2인 경우를 포함해 복합 목표 함수에 대한 프록시 오라클 사용에 대한 첫 번째 의미 있는 하한을 제공하는 것.

제안 방법

랜덤화 및 결정론적 알고리즘에 대한 오라클 접근의 하한을 유도하기 위해 정보 이론적 추론과 감소 기법을 사용한다.
비미분 가능 및 미분 가능 케이스의 하한을 증명하기 위해 제어된 하위기울기 및 프록시 행동을 갖는 악성 함수 가족을 구성한다.
비미분 가능 함수에 대해 스무딩 기법을 적용하여, 프록시 오라클 접근이 기울기 전용 방법보다 더 빠른 수렴을 가능하게 함을 보여준다.
기존의 가속화된 방법(AGD, A-SVRG)을 상한으로 활용하여 하한과 일치하는 복잡도를 보여주며, 복잡도가 일치함을 증명한다.
부적절한 해를 얻기 위해 필요한 오라클 쿼리 수를 하한화하기 위해 선형 함수에서 부호 예측 문제로 문제를 감소시킨다.
정규화 및 노름 유계성 추론을 사용하여 하한을 유계 영역을 초월해 확장한다.

실험 결과

연구 질문

RQ1기울기 및 프록시 오라클을 사용하여 m개의 볼록 함수의 평균을 최소화하는 데 필요한 최적의 복잡도는 무엇인가요?
RQ2유한합 최적화에서 결정론적 알고리즘과 랜덤화 알고리즘 간의 복잡도는 어떻게 다릅니까?
RQ3프록시 오라클에의 접근이 기울기 전용 접근에 비해 비미분 가능 복합 목표 함수의 수렴을 얼마나 향상시킬 수 있나요?
RQ4AGD 및 SVRG와 같은 기존의 가속화된 방법들이 각각의 설정에서 최적이 되는가요?
RQ5미분 가능 및 비미분 가능, 볼록 및 강볼록 함수에 대해 오라클 접근에 대한 가장 날것의 가능한 하한은 무엇인가요?

주요 결과

미분 가능 함수의 경우, 가속화된 기울기 하강법(AGD)이 결정론적 설정에서 최적의 복잡도를 달성하며, 유도된 하한과 일치한다.
랜덤화 알고리즘의 경우, 가속화된 SVRG가 최적이며, 로그 인자까지 알려진 가장 날것의 복잡도 경계를 달성한다.
비미분 가능 케이스에서 프록시 오라클 접근은 ε에 대한 다항식 의존성을 1/ε²에서 1/ε로 감소시켜 수렴 속도를 크게 향상시킨다.
강볼록 함수의 경우, 프록시 접근은 1/(λε)에서 1/√(λε)로 복잡도 의존성을 감소시켜 다시 한번 상당한 향상을 보여준다.
논문은 결정론적 및 랜덤화 알고리즘 간에 상당한 복잡도 격차를 확립하며, 랜덤화 방법이 m과 ε에 대해 더 우수한 의존성을 보임을 드러낸다.
하한이 상한과 일치함(로그 인자까지)을 보여주며, AGD, A-SVRG, 가속화된 SDCA와 같은 기존 방법의 최적성을 증명한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.