QUICK REVIEW

[논문 리뷰] Accelerated Bregman Proximal Gradient Methods for Relatively Smooth Convex Optimization

Filip Hanzely, Peter Richtárik|arXiv (Cornell University)|2018. 08. 09.

Sparse and Compressive Sensing Techniques참고 문헌 28인용 수 28

한 줄 요약

이 논문은 상대적 평활성에 대한 브레그만 발산의 삼각형 스케일링 지수(TSE)를 활용하여 가속화된 브레그만 프락시멀 그라디언트(ABPG) 방법을 소개한다. 이는 수렴 속도가 $O(k^{-\theta})$인 경우 $ heta \in (0,2]$를 달성한다. 본문에서는 내재적 TSE가 항상 2임을 규명하여, 이론적 보장이 제한된 상황에서도 경험적으로 $O(k^{-2})$ 속도를 달성하는 적응형 알고리즘을 가능하게 한다. 이는 수치적 증거를 통해 검증된다.

ABSTRACT

We consider the problem of minimizing the sum of two convex functions: one is differentiable and relatively smooth with respect to a reference convex function, and the other can be nondifferentiable but simple to optimize. We investigate a triangle scaling property of the Bregman distance generated by the reference convex function and present accelerated Bregman proximal gradient (ABPG) methods that attain an $O(k^{-γ})$ convergence rate, where $γ\in(0,2]$ is the triangle scaling exponent (TSE) of the Bregman distance. For the Euclidean distance, we have $γ=2$ and recover the convergence rate of Nesterov's accelerated gradient methods. For non-Euclidean Bregman distances, the TSE can be much smaller (say $γ\leq 1$), but we show that a relaxed definition of intrinsic TSE is always equal to 2. We exploit the intrinsic TSE to develop adaptive ABPG methods that converge much faster in practice. Although theoretical guarantees on a fast convergence rate seem to be out of reach in general, our methods obtain empirical $O(k^{-2})$ rates in numerical experiments on several applications and provide posterior numerical certificates for the fast rates.

연구 동기 및 목표

기준 브레그만 발산에 대해 상대적으로 평활한 목적 함수를 갖는 볼록 최적화를 위한 가속화된 일阶 방법을 개발하는 것.
브레그만 거리의 삼각형 스케일링 지수(TSE)를 사용하여 이러한 방법의 수렴 속도를 특성화하는 것.
항상 2와 동일한 내재적 TSE 개념을 도입하여 적응형 가속 전략을 가능하게 하는 것.
이론적 $O(k^{-2})$ 수렴 속도가 증명되지 않은 경우에도 빠른 경험적 수렴 속도를 달성하는 적응형 ABPG 방법을 설계하는 것.
실제 구현에서의 이득 $G_k$의 기하 평균을 사용하여 $O(k^{-2})$ 수렴에 대한 수치적 증거를 제공하는 것.

제안 방법

브레그만 거리의 성장률을 측정하는 삼각형 스케일링 지수(TSE) $\gamma$를 도입하며, $\gamma \in (0,2]$로 정의한다.
TSE $\gamma$-스케일링 조건을 만족할 경우 $O(k^{-\gamma})$ 수렴 속도를 달성하는 가속화된 브레그만 프락시멀 그라디언트(ABPG) 방법을 제안한다.
브레그만 거리가 삼각형 스케일링 부등식을 만족하는 모든 $\gamma$의 상한으로서 내재적 TSE를 정의하며, 이것이 항상 2임을 증명한다.
관측된 이득 $G_k$에 기반해 가속화 파라미터 $\gamma_k$를 동적으로 조정하는 적응형 ABPG 변형(예: ABPG-g, ABPG-e)을 개발한다.
수렴 속도 $O(k^{-2})$에 대한 사후 수치적 증거로 이득 $G_k$의 기하 평균 $\overline{G}_k$를 사용한다.
기존 방법에서 유클리드 노름을 사용하는 것과 달리, 프락시멀 부문에서 브레그만 발산 $D_h(x,y)$를 거리 측정 척도로 사용한다.

실험 결과

연구 질문

RQ1브레그만 거리의 삼각형 스케일링 지수가 작을 경우, $\gamma < 2$인 가속화된 브레그만 프락시멀 그라디언트 방법이 $O(k^{-\gamma})$ 수렴 속도를 달성할 수 있는가?
RQ2각기 다른 브레그만 발산에 대해 개별 TSE 값에 관계없이, 가속화 잠재력에 대한 보편적 척도를 정의할 수 있는가?
RQ3실시간으로 TSE를 추정하는 적응 전략이 고정 파라미터 방법보다 더 빠른 실질적 수렴을 이끌 수 있는가?
RQ4이론적으로 보장되지 않는 비유클리드 설정에서 $O(k^{-2})$ 수렴에 대한 신뢰할 수 있는 수치적 지표는 무엇인가?
RQ5표준 BPG 및 BPG-LS와 비교해 볼 때, 비유클리드적이고 상대적으로 평활한 문제에서 ABPG 방법의 성능과 수렴 행동은 어떻게 다른가?

주요 결과

내재적 삼각형 스케일링 지수(TSE)는 항상 2와 동일하며, 이는 기저 브레그만 발산에 관계없이 가속화의 보편적 기반을 제공한다.
ABPG-g 및 ABPG-e와 같은 적응형 ABPG 방법은 이론적 보장이 없더라도 수치 실험에서 경험적으로 $O(k^{-2})$ 수렴 속도를 달성한다.
이득 $G_k$의 기하 평균 $\overline{G}_k$는 반복 과정 전반에 걸쳐 작게 유지되며(예: $G_k \ll 1$), 이는 $O(k^{-2})$ 수렴에 대한 수치적 증거로 기능한다.
D-최적 설계 문제에서는 $\gamma=2$인 ABPG가 뉘스터로프의 가속화 방법과 동일하거나 이를 초월하는 수렴 속도를 달성한다.
상대 엔트로피 기반 비음수 회귀 문제에서는 리스타트 기반 및 적응형 $\gamma_k$를 사용하는 ABPG가 표준 BPG 및 BPG-LS를 능가하며, 특히 고차원 설정에서 두드러진 성능을 보인다.
ABPG-e에서 $\gamma_k$가 3에서 2.8로 감소할 경우, 효과적 이득 $\widehat{G}_k$가 크게 감소하며, 이는 항상 2인 내재적 TSE와 일치하는 향상된 수렴 행동을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.