[논문 리뷰] ProxSARAH: An Efficient Algorithmic Framework for Stochastic Composite Nonconvex Optimization
ProxSARAH는 SARAH 추정기를 평균화 단계와 함께 도입하여 근사-변분 감소 프레임워크를 구성하고, 각각의 유한합 및 기대 설정에서 상수 및 적응적 스텝 크기를 포함한 최적에 근접한(또는 최적) 복잡도와 함께 가장 잘 알려진 복잡도에 도달한다.
We propose a new stochastic first-order algorithmic framework to solve stochastic composite nonconvex optimization problems that covers both finite-sum and expectation settings. Our algorithms rely on the SARAH estimator introduced in (Nguyen et al, 2017) and consist of two steps: a proximal gradient and an averaging step making them different from existing nonconvex proximal-type algorithms. The algorithms only require an average smoothness assumption of the nonconvex objective term and additional bounded variance assumption if applied to expectation problems. They work with both constant and adaptive step-sizes, while allowing single sample and mini-batches. In all these cases, we prove that our algorithms can achieve the best-known complexity bounds. One key step of our methods is new constant and adaptive step-sizes that help to achieve desired complexity bounds while improving practical performance. Our constant step-size is much larger than existing methods including proximal SVRG schemes in the single sample case. We also specify the algorithm to the non-composite case that covers existing state-of-the-arts in terms of complexity bounds. Our update also allows one to trade-off between step-sizes and mini-batch sizes to improve performance. We test the proposed algorithms on two composite nonconvex problems and neural networks using several well-known datasets.
연구 동기 및 목표
- finite-sum 및 기대 설정을 포함하는 확률적 합성 비볼록 최적화 문제를 동기화하고 해결한다.
- SARAH 추정기를 활용한 proximal 분산 감소 프레임워크를 개발하여 수렴 보장을 개선한다.
- 바람직한 이론적 속도와 실용적 성능을 달성하기 위해 averaging proximal-gradient 체계 내에서 상수 및 적응형 스텝사이즈 규칙을 설계한다.
- 프레임워크를 합성 및 비합성(composite 및 non-composite) 케이스 모두에 확장하고 스텝사이즈와 미니배치 크기 간의 트레이드오프를 분석한다.
제안 방법
- SARAH 기반의 기울기 추정치를 이중 루프(외부/내부) 스킴 내에서 사용한다.
- 업데이트 G_eta를 형성하기 위해 proximal-gradient 단계 다음에 averaging 단계를 도입한다.
- 평균화 스텝 사이즈 gamma와 proximal-gradient 스텝 사이즈 eta의 두 가지 스텝 사이즈를 도입하고, 전체 진행을 위해 hat_eta의 곱을 사용한다.
- 단일 샘플 및 미니배치 변형을 허용하고 유한합 및 기대 문제 모두를 지원한다.
- 최고로 알려진 속도에 일치하는 복잡도 상한을 증명한다: O(n + n^{1/2} epsilon^{-2})는 유한합에 대해, O(sigma^{2} epsilon^{-2} + sigma epsilon^{-3})는 기대에 대해.
- 적응형 스텝사이즈 규칙의 적응성과 에포크 길이 m과 배치 크기 b_hat 간의 트레이드오프를 논의하고 이를 통해 적응성을 보인다.
실험 결과
연구 질문
- RQ1SARAH 기반 proximal 프레임워크가 유한합과 기대 설정 모두에서 합성 비볼록 목표에 대해 최적 또는 거의 최적의 수렴 속도에 도달할 수 있는가?
- RQ2상수 스텝사이즈와 적응형 스텝사이즈, 단일 샘플 대 미니배치 체계가 이론적 보장 및 실용 성능에 어떤 영향을 주는가?
- RQ3평균화 단계가 proximal 비볼록 최적화의 수렴 및 복잡도에 미치는 영향은 무엇인가?
- RQ4에포크 길이와 배치 크기를 어떻게 선택하여 계산 비용과 수렴 속도 간의 균형을 맞추면서 보장을 유지할 수 있는가?
주요 결과
- 유한합 설정에서 ProxSARAH는 epsilon-정지점(에포크 내 기대치) 도달을 위한 복잡도 O(n + n^{1/2} epsilon^{-2})를 달성하여 적합한 n에 대해 하한과 상수 차원에서 일치한다.
- 기대 설정에서 ProxSARAH는 제한 분산 가정하에 O(sigma^{2} epsilon^{-2} + sigma epsilon^{-3})의 1차 오라클 호출을 필요로 하며, 유사한 방법들 중에서 최상으로 알려진 속도를 달성한다.
- 두 가지 스텝 사이즈와 평균화 단계를 사용하여 고정 상수 proximal-스텝 크기를 ProxSVRG 타입 방법들보다 크게 설정할 수 있으며 미니배치 크기와의 유연한 트레이드오프를 제공한다.
- 적응적 스텝사이즈 변형은 실무에서 종종 상수 스텝사이즈 체계보다 우수하며 비합성 문제에도 확장된다.
- 본 방법은 합성 및 비합성 케이스를 모두 포괄하고 단일 샘플 및 미니배치 체계에 확장되며 ProxSVRG/ProxSVRG+와 동일한 proximal 연산자를 사용하면서 유사한 복잡도 경향을 유지한다.
- ProxSVRG, SPIDER, SpiderBoost와 비교했을 때, ProxSARAH는 합성 설정에서 더 큰 유효 스텝 사이즈를 활용해 유사하거나 더 나은 복잡도와 더 넓은 미니배치 구성을 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.