QUICK REVIEW

[논문 리뷰] Inexact Non-Convex Newton-Type Methods

Zhewei Yao, Peng Xu|arXiv (Cornell University)|2018. 02. 20.

Stochastic Gradient Optimization Techniques참고 문헌 34인용 수 29

한 줄 요약

이 논문은 최적의 반복 복잡도를 유지하면서 기울기, 헤시안 행렬, 하위문제 해를 근사하는 비정확한 신뢰영역(TR) 및 적응형 입방정규화(ARC) 알고리즘을 제안한다. 약간의 근사 조건 하에, 비정확한 TR은 $Ó(\max\{\epsilon_g^{-2}\epsilon_H^{-1}, \epsilon_H^{-3}\})$의 복잡도를 달성하고, 비정확한 ARC는 더 강한 조건 하에 최적의 복잡도를 회복하며, 실용적 구현에 알 수 없는 문제 파라미터에 의존하지 않는다.

ABSTRACT

For solving large-scale non-convex problems, we propose inexact variants of trust region and adaptive cubic regularization methods, which, to increase efficiency, incorporate various approximations. In particular, in addition to approximate sub-problem solves, both the Hessian and the gradient are suitably approximated. Using rather mild conditions on such approximations, we show that our proposed inexact methods achieve similar optimal worst-case iteration complexities as the exact counterparts. Our proposed algorithms, and their respective theoretical analysis, do not require knowledge of any unknowable problem-related quantities, and hence are easily implementable in practice. In the context of finite-sum problems, we then explore randomized sub-sampling methods as ways to construct the gradient and Hessian approximations and examine the empirical performance of our algorithms on some real datasets.

연구 동기 및 목표

기울기 및 헤시안 행렬의 리프시츠 상수와 같은 알 수 없는 문제 상수를 필요로 하는 기존 비정확 뉴턴 방법의 실용적 제약를 해결한다.
알 수 없는 파라미터에 의존하지 않고 기울기, 헤시안 행렬, 하위문제 해를 근사하는 비정확한 TR 및 ARC 알고리즘을 개발한다.
비정확한 변형에 대해 이론적으로 정확한 대응체와 동일한 최악의 경우 반복 복잡도를 보장하면서도 실용적으로 구현 가능하도록 보장한다.
실험적으로 제안된 방법이 이전의 비정확 방법보다 하이퍼파rameter 선택에 더 강인함을 입증한다.
대규모 비볼록 최적화 문제에서 이론적 최적성과 실용적 효율성 사이의 격차를 메운다.

제안 방법

비정확한 기울기, 헤시안 행렬, 하위문제 해를 사용하는 알고리즘 1(비정확 TR)을 제안하고, 약간의 근사 조건 하에 수렴 분석을 수행한다.
기울기, 헤시안 행렬, 하위문제 해에서 유사한 비정확성을 가진 알고리즘 2(비정확 ARC)를 제안하며, 더 강한 조건 하에 최적의 복잡도를 달성한다.
문제의 특수 상수를 알 필요 없이 기울기, 헤시안 행렬, 하위문제 해의 오차를 제어하는 근사 조건(조건 1–4 및 5–6)을 도입한다.
계산 비용을 줄이기 위해 하위문제를 근사적으로 해결하기 위해 공액 그래디언트(CG-Steihaug) 및 일반화된 랑츠 방법을 사용한다.
실제로 알고리즘을 구현하기 위해 알 수 없는 문제 관련 상수(예: 리프시츠 상수)가 필요하지 않도록 알고리즘을 설계한다.
기울기, 헤시안 행렬, 하위문제 해결의 근사 오차를 신중하게 제한하여 이론적 수렴 보장이 정확한 대응체와 동일하게 유지되도록 보장한다.

실험 결과

연구 질문

RQ1기울기, 헤시안 행렬, 하위문제 해를 근사할 경우 비정확한 TR 및 ARC 알고리즘이 정확한 대응체와 동일한 최적의 반복 복잡도를 유지할 수 있는가?
RQ2기울기, 헤시안 행렬, 하위문제 해에 대한 근사 조건 중에서 최적의 수렴 속도를 유지하는 데 충분한 조건은 무엇인가?
RQ3리프시츠 상수와 같은 알 수 없는 문제 파라미터에 의존하지 않고도 비정확한 뉴턴 유형 방법을 실용적으로 구현할 수 있는가?
RQ4비정확한 TR 및 ARC의 성능은 기존 비정확 방법에 비해 수렴 속도와 하이퍼파rameter에 대한 강인성 측면에서 어떻게 다른가?
RQ5제안된 방법은 하이퍼파rameter 조정에 많은 시간이 소요되는 이전의 비정확 방법보다 더 뛰어난 실용적 효율성과 강인성을 달성하는가?

주요 결과

비정확한 TR 알고리즘(알고리즘 1)은 약간의 근사 조건 하에 최적의 반복 복잡도 $\mathcal{O}(\max\{\epsilon_g^{-2}\epsilon_H^{-1}, \epsilon_H^{-3}\})$를 달성한다.
비정확한 ARC 알고리즘(알고리즘 2)은 더 강한 조건 하에 최적의 복잡도 $\mathcal{O}(\max\{\epsilon_g^{-3/2}, \epsilon_H^{-3}\})$를 달성하며, 최고의 알려진 이론적 한계와 일치한다.
실험 결과, 비정확한 TR과 ARC는 SubH TR에 비해 3~5배, Full TR에 비해 5~10배 적은 전파 횟수를 필요로 하여 뛰어난 계산 효율성을 보였다.
비정확한 ARC는 초기 입방정규화 파라미터 $\sigma_0$에 대해 매우 강인한 반면, SCR [47]는 매우 민감하여 광범위한 하이퍼파rameter 조정이 필요하다.
비정확한 기울기 및 헤시안 정보 하에서 기존의 비정확 변형인 SCR(GD) 및 SCR(Lanczos)보다 수렴 속도와 안정성 측면에서 뛰어나며, 특히 하위표본 기반 기울기 및 헤시안 정보에서 두드러진 성능을 보였다.
알 수 없는 문제 상수의 지식이 없이도 실용적으로 구현 가능하며, 이는 이전 방법이 이론적 분석을 위해 이러한 가정이 필요로 했던 것과 대조된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.