Skip to main content
QUICK REVIEW

[논문 리뷰] Towards Gradient Free and Projection Free Stochastic Optimization

Anit Kumar Sahu, Manzil Zaheer|arXiv (Cornell University)|2018. 10. 08.
Stochastic Gradient Optimization Techniques인용 수 18
한 줄 요약

이 논문은 기울기 없고 투영 없이, 기울기 대신 방향 도함수 쿼리만을 사용하는 제로스터드 프랭크-울프 알고리즘을 제안한다. 볼록 설정에서는 $O(d^{1/3}/T^{1/3})$의 원본 최적화 갭을 달성하고, 비볼록 설정에서는 $O(d^{1/3}T^{-1/4})$의 프랭크-울프 갭을 달성하며, 반복마다 하나의 방향 도함수를 사용하는 제로스터드 방법 중에서 가장 우수한 차원 의존성을 가지며, 이는 기존의 최고 성능에 가까운 결과이다.

ABSTRACT

This paper focuses on the problem of \emph{constrained} \emph{stochastic} optimization. A zeroth order Frank-Wolfe algorithm is proposed, which in addition to the projection-free nature of the vanilla Frank-Wolfe algorithm makes it gradient free. Under convexity and smoothness assumption, we show that the proposed algorithm converges to the optimal objective function at a rate $O\left(1/T^{1/3} ight)$, where $T$ denotes the iteration count. In particular, the primal sub-optimality gap is shown to have a dimension dependence of $O\left(d^{1/3} ight)$, which is the best known dimension dependence among all zeroth order optimization algorithms with one directional derivative per iteration. For non-convex functions, we obtain the \emph{Frank-Wolfe} gap to be $O\left(d^{1/3}T^{-1/4} ight)$. Experiments on black-box optimization setups demonstrate the efficacy of the proposed algorithm.

연구 동기 및 목표

  • 기울기가 아닌 함수 평가(제로스터드 오라클)만 제공되는 제약 조건이 있는 스토하스틱 최적화 문제를 다루는 것.
  • 기울기 방법에서 흔히 발생하는 비용이 큰 투영 단계를 피하는 투영 없이 구현된 방법을 개발하는 것.
  • 제로스터드 스토하스틱 최적화에서 수렴 속도의 최적 차원 의존성을 확보하는 것.
  • 제로스터드 스토하스틱 프랭크-울프에서 편향된 기울기 추정치와 감소하지 않는 노이즈 문제에 대응하기 위해 기울기 평균화 기법을 도입하는 것.
  • 제로스터드 접근 조건 하에서 볼록 및 비볼록 설정 모두에 대해 이론적 수렴 속도를 확립하는 것.

제안 방법

  • 기울기 쿼리 대신 방향 도함수 추정치를 사용하는 제로스터드 오라클을 활용한 스토하스틱 프랭크-울프 알고리즘을 제안한다.
  • 세 가지 제로스터드 기울기 근사 기법을 활용한다: 키퍼-월프(KWSA), 랜덤 방향(RDSA), 및 향상된 RDSA(I-RDSA)로, $m < d$ 개의 방향을 사용한다.
  • 서브기울기 추정치의 편향과 노이즈를 줄이기 위해 기울기 평균화 기법을 도입하여 수렴 안정성을 향상시킨다.
  • 감소하는 단계 크기 $\gamma = T^{-3/4}$ 와 적응형 단계 크기 $\rho_t$ 및 $c_t$ 를 사용하여 수렴과 오차 감소를 균형 있게 조절한다.
  • 기울기 근사 오차를 분석하고, 이를 프랭크-울프 갭과 원본 최적화 갭과 연결함으로써 수렴 한계를 유도한다.
  • 재귀적 오차 한계를 통해 이론적 수렴을 확립하고, 레마 B.1을 적용하여 $\mathbb{E}[\|\nabla f(\mathbf{x}_t) - \mathbf{d}_t\|^2] = O((d/m)^{2/3}/(t+9)^{1/2})$ 를 보여준다.

실험 결과

연구 질문

  • RQ1기울기 없이 제로스터드 오라클 접근 조건 하에서 수렴성을 유지할 수 있는 스토하스틱 프랭크-울프 알고리즘이 개발될 수 있는가?
  • RQ2반복마다 하나의 방향 도함수를 사용하는 제로스터드 스토하스틱 프랭크-울프 방법의 수렴 속도에서 최적의 차원 의존성은 무엇인가?
  • RQ3제로스터드 오라클에서 유도된 편향되고 노이즈가 많은 기울기 추정치는 어떻게 안정화시켜야 하며, 이는 스토하스틱 프랭크-울프의 수렴을 보장할 수 있는가?
  • RQ4제안된 방법은 기존의 제로스터드 스토하스틱 최적화 알고리즘보다 더 나은 차원 의존성을 달성하는가?
  • RQ5제로스터드 접근 조건 하에서 볼록 및 비볼록 설정 모두에 대해 이론적 수렴 속도는 무엇인가?

주요 결과

  • 제안된 알고리즘은 볼록 설정에서 $O(d^{1/3}/T^{1/3})$의 원본 최적화 갭을 달성하며, 반복마다 하나의 방향 도함수를 사용하는 제로스터드 방법 중에서 가장 좋은 차원 의존성을 보인다.
  • 비볼록 함수에 대해서는 프랭크-울프 이중성 갭이 $O(d^{1/3}T^{-1/4})$ 속도로 수렴하며, 이는 이전의 스토하스틱 제로스터드 방법보다 향상된 성능이다.
  • 기울기 평균화를 통해 편향과 노이즈를 감소시켜, 감소하지 않는 기울기 추정치가 존재하는 상황에서도 안정적인 수렴을 가능하게 한다.
  • 수렴 속도는 차원에 대해 강건하며, 주어진 오라클 모델에서 $d^{1/3}$ 의 의존성은 최적이다.
  • 이론적 분석을 통해 미약한 가정 하에 수렴이 보장되며, 기울기 근사 오차와 최적화 부족성에 대한 명시적 경계가 제시된다.
  • 블랙박스 최적화 설정에서의 실험을 통해 제안된 알고리즘이 실무에서 효과적임을 검증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.