Skip to main content
QUICK REVIEW

[논문 리뷰] Improved Zeroth-Order Variance Reduced Algorithms and Analysis for Nonconvex Optimization

Kaiyi Ji, Zhe Wang|arXiv (Cornell University)|2019. 10. 26.
Stochastic Gradient Optimization Techniques참고 문헌 38인용 수 24
한 줄 요약

이 논문은 기존 ZO-GD, ZO-SGD 및 기존 SVRG/SPIDER 유형의 방법보다 더 나은 기능 쿼리 복잡도와 수렴 속도를 달성하기 위해 두 가지 향상된 제로계수 차수(variance-reduced) 알고리즘—ZO-SVRG-Coord-Rand와 ZO-SPIDER-Coord—을 제안한다. 좌표별 기울기 추정을 사용하고 가우시안 난수를 회피함으로써 ZO-GD, ZO-SGD 및 기존 SVRG/SPIDER 유형의 방법보다 더 빠른 수렴을 달성하며, 재시작 없이도 국소 PL 영역에서 선형 수렴을 가능하게 하고, 일정한 스텝 사이즈를 허용한다.

ABSTRACT

Two types of zeroth-order stochastic algorithms have recently been designed for nonconvex optimization respectively based on the first-order techniques SVRG and SARAH/SPIDER. This paper addresses several important issues that are still open in these methods. First, all existing SVRG-type zeroth-order algorithms suffer from worse function query complexities than either zeroth-order gradient descent (ZO-GD) or stochastic gradient descent (ZO-SGD). In this paper, we propose a new algorithm ZO-SVRG-Coord-Rand and develop a new analysis for an existing ZO-SVRG-Coord algorithm proposed in Liu et al. 2018b, and show that both ZO-SVRG-Coord-Rand and ZO-SVRG-Coord (under our new analysis) outperform other exiting SVRG-type zeroth-order methods as well as ZO-GD and ZO-SGD. Second, the existing SPIDER-type algorithm SPIDER-SZO (Fang et al. 2018) has superior theoretical performance, but suffers from the generation of a large number of Gaussian random variables as well as a $\\sqrt{\\epsilon}$-level stepsize in practice. In this paper, we develop a new algorithm ZO-SPIDER-Coord, which is free from Gaussian variable generation and allows a large constant stepsize while maintaining the same convergence rate and query complexity, and we further show that ZO-SPIDER-Coord automatically achieves a linear convergence rate as the iterate enters into a local PL region without restart and algorithmic modification.

연구 동기 및 목표

  • 기존 SVRG 유형의 제로계수 알고리즘의 낮은 기능 쿼리 복잡도 문제를 해결하기 위해 ZO-GD 및 ZO-SGD와 비교하여 개선된 성능을 달성하고자 한다.
  • SPIDER 유형의 방법에서 가우시안 난수 생성이 필요 없도록 하면서도 최적의 수렴 속도를 유지하고자 한다.
  • SPIDER 유형의 알고리즘에서 성능 저하 없이 일정한 스텝 사이즈를 사용할 수 있도록 하고자 한다.
  • 알고리즘의 재시작이나 수정 없이 국소 폴리악-Łojasiewicz(PL) 영역에서 선형 수렴을 달성하고자 한다.
  • 기존 ZO-SVRG-Coord에 대해 더 날카운 이론적 분석을 제공하여 쿼리 복잡도와 수렴 속도를 향상시키고자 한다.

제안 방법

  • 좌표별 기울기 추정을 사용하여 개선된 수렴 성능를 달성하는 ZO-SVRG-Coord의 확률적 변종인 ZO-SVRG-Coord-Rand를 도입한다.
  • 기존 ZO-SVRG-Coord에 대해 새로운 이론적 분석을 개발하여 일정한 스텝 사이즈와 O(1/K) 수렴 속도를 달성함으로써 이전 연구를 향상시킨다.
  • 가우시안 난수 생성을 피하고 일정한 스텝 사이즈를 지원하는 새로운 SPIDER 유형 알고리즘인 ZO-SPIDER-Coord를 제안한다.
  • 비볼록 환경에서의 변동성 감소 및 쿼리 효율성 향상을 위해 좌표별 기울기 추정기를 활용한다.
  • 수렴 보장을 위해 분석에서 체계적(telescoping) 추론을 사용하여 기울기 노름의 기대값을 유한하게 제한한다.
  • 쿼리 복잡도와 수렴 속도의 균형을 맞추기 위해 적응형 배치 크기 및 에포크 길이 선택 전략을 도입한다.

실험 결과

연구 질문

  • RQ1ZO-SVRG 유형의 알고리즘이 ZO-GD 및 ZO-SGD보다 더 나은 기능 쿼리 복잡도를 달성할 수 있는가?
  • RQ2SPIDER 유형의 제로계수 방법이 최적의 수렴 속도를 유지하면서도 가우시안 난수 생성을 피할 수 있는가?
  • RQ3SPIDER 유형의 알고리즘에서 성능 저하 없이 일정한 스텝 사이즈를 사용할 수 있는가?
  • RQ4ZO-SPIDER-Coord는 재시작 없이 국소 PL 영역에서 선형 수렴을 달성하는가?
  • RQ5새로운 이론적 분석을 통해 기존 ZO-SVRG-Coord의 수렴 속도와 쿼리 복잡도를 향상시킬 수 있는가?

주요 결과

  • ZO-SVRG-Coord-Rand와 ZO-SVRG-Coord에 대한 새로운 분석은 기능 쿼리 복잡도 O(min{dn²/³/ε, d/ε⁵/³})를 달성하여 ZO-GD 및 ZO-SGD를 초월한다.
  • ZO-SPIDER-Coord는 SPIDER-SZO와 동일한 수렴 속도와 쿼리 복잡도를 달성하지만, 가우시안 난수 생성이 필요 없다.
  • ZO-SPIDER-Coord는 SPIDER-SZO가 실질적으로 √ε 수준의 스텝 사이즈를 사용하는 것과는 달리 일정한 스텝 사이즈를 지원한다.
  • ZO-SPIDER-Coord는 재시작이나 알고리즘 수정 없이도 자동으로 국소 PL 영역에서 선형 수렴을 달성한다.
  • ZO-SVRG-Coord에 대한 새로운 분석은 일정한 스텝 사이즈 하에서 O(1/K) 수렴 속도로 성능을 향상시켜 이전의 SVRG 유형 방법보다 쿼리 복잡도를 감소시킨다.
  • 제안된 알고리즘들은 O(d min{n, 1/ε} log(1/ε))의 기능 쿼리 복잡도를 달성하여 기존 최상의 방법들과 동일하거나 이를 초월한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.