Skip to main content
QUICK REVIEW

[논문 리뷰] Inexact Non-Convex Newton-Type Methods

Zhewei Yao, Peng Xu|arXiv (Cornell University)|2018. 02. 20.
Stochastic Gradient Optimization Techniques참고 문헌 34인용 수 29
한 줄 요약

이 논문은 최적의 반복 복잡도를 유지하면서 기울기, 헤시안 행렬, 하위문제 해를 근사하는 비정확한 신뢰영역(TR) 및 적응형 입방정규화(ARC) 알고리즘을 제안한다. 약간의 근사 조건 하에, 비정확한 TR은 $Ó(\max\{\epsilon_g^{-2}\epsilon_H^{-1}, \epsilon_H^{-3}\})$의 복잡도를 달성하고, 비정확한 ARC는 더 강한 조건 하에 최적의 복잡도를 회복하며, 실용적 구현에 알 수 없는 문제 파라미터에 의존하지 않는다.

ABSTRACT

For solving large-scale non-convex problems, we propose inexact variants of trust region and adaptive cubic regularization methods, which, to increase efficiency, incorporate various approximations. In particular, in addition to approximate sub-problem solves, both the Hessian and the gradient are suitably approximated. Using rather mild conditions on such approximations, we show that our proposed inexact methods achieve similar optimal worst-case iteration complexities as the exact counterparts. Our proposed algorithms, and their respective theoretical analysis, do not require knowledge of any unknowable problem-related quantities, and hence are easily implementable in practice. In the context of finite-sum problems, we then explore randomized sub-sampling methods as ways to construct the gradient and Hessian approximations and examine the empirical performance of our algorithms on some real datasets.

연구 동기 및 목표

  • 기울기 및 헤시안 행렬의 리프시츠 상수와 같은 알 수 없는 문제 상수를 필요로 하는 기존 비정확 뉴턴 방법의 실용적 제약를 해결한다.
  • 알 수 없는 파라미터에 의존하지 않고 기울기, 헤시안 행렬, 하위문제 해를 근사하는 비정확한 TR 및 ARC 알고리즘을 개발한다.
  • 비정확한 변형에 대해 이론적으로 정확한 대응체와 동일한 최악의 경우 반복 복잡도를 보장하면서도 실용적으로 구현 가능하도록 보장한다.
  • 실험적으로 제안된 방법이 이전의 비정확 방법보다 하이퍼파rameter 선택에 더 강인함을 입증한다.
  • 대규모 비볼록 최적화 문제에서 이론적 최적성과 실용적 효율성 사이의 격차를 메운다.

제안 방법

  • 비정확한 기울기, 헤시안 행렬, 하위문제 해를 사용하는 알고리즘 1(비정확 TR)을 제안하고, 약간의 근사 조건 하에 수렴 분석을 수행한다.
  • 기울기, 헤시안 행렬, 하위문제 해에서 유사한 비정확성을 가진 알고리즘 2(비정확 ARC)를 제안하며, 더 강한 조건 하에 최적의 복잡도를 달성한다.
  • 문제의 특수 상수를 알 필요 없이 기울기, 헤시안 행렬, 하위문제 해의 오차를 제어하는 근사 조건(조건 1–4 및 5–6)을 도입한다.
  • 계산 비용을 줄이기 위해 하위문제를 근사적으로 해결하기 위해 공액 그래디언트(CG-Steihaug) 및 일반화된 랑츠 방법을 사용한다.
  • 실제로 알고리즘을 구현하기 위해 알 수 없는 문제 관련 상수(예: 리프시츠 상수)가 필요하지 않도록 알고리즘을 설계한다.
  • 기울기, 헤시안 행렬, 하위문제 해결의 근사 오차를 신중하게 제한하여 이론적 수렴 보장이 정확한 대응체와 동일하게 유지되도록 보장한다.

실험 결과

연구 질문

  • RQ1기울기, 헤시안 행렬, 하위문제 해를 근사할 경우 비정확한 TR 및 ARC 알고리즘이 정확한 대응체와 동일한 최적의 반복 복잡도를 유지할 수 있는가?
  • RQ2기울기, 헤시안 행렬, 하위문제 해에 대한 근사 조건 중에서 최적의 수렴 속도를 유지하는 데 충분한 조건은 무엇인가?
  • RQ3리프시츠 상수와 같은 알 수 없는 문제 파라미터에 의존하지 않고도 비정확한 뉴턴 유형 방법을 실용적으로 구현할 수 있는가?
  • RQ4비정확한 TR 및 ARC의 성능은 기존 비정확 방법에 비해 수렴 속도와 하이퍼파rameter에 대한 강인성 측면에서 어떻게 다른가?
  • RQ5제안된 방법은 하이퍼파rameter 조정에 많은 시간이 소요되는 이전의 비정확 방법보다 더 뛰어난 실용적 효율성과 강인성을 달성하는가?

주요 결과

  • 비정확한 TR 알고리즘(알고리즘 1)은 약간의 근사 조건 하에 최적의 반복 복잡도 $\mathcal{O}(\max\{\epsilon_g^{-2}\epsilon_H^{-1}, \epsilon_H^{-3}\})$를 달성한다.
  • 비정확한 ARC 알고리즘(알고리즘 2)은 더 강한 조건 하에 최적의 복잡도 $\mathcal{O}(\max\{\epsilon_g^{-3/2}, \epsilon_H^{-3}\})$를 달성하며, 최고의 알려진 이론적 한계와 일치한다.
  • 실험 결과, 비정확한 TR과 ARC는 SubH TR에 비해 3~5배, Full TR에 비해 5~10배 적은 전파 횟수를 필요로 하여 뛰어난 계산 효율성을 보였다.
  • 비정확한 ARC는 초기 입방정규화 파라미터 $\sigma_0$에 대해 매우 강인한 반면, SCR [47]는 매우 민감하여 광범위한 하이퍼파rameter 조정이 필요하다.
  • 비정확한 기울기 및 헤시안 정보 하에서 기존의 비정확 변형인 SCR(GD) 및 SCR(Lanczos)보다 수렴 속도와 안정성 측면에서 뛰어나며, 특히 하위표본 기반 기울기 및 헤시안 정보에서 두드러진 성능을 보였다.
  • 알 수 없는 문제 상수의 지식이 없이도 실용적으로 구현 가능하며, 이는 이전 방법이 이론적 분석을 위해 이러한 가정이 필요로 했던 것과 대조된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.