Skip to main content
QUICK REVIEW

[논문 리뷰] Convergence rates of sub-sampled Newton methods

Murat A. Erdogdu, Andrea Montanari|arXiv (Cornell University)|2015. 08. 12.
Sparse and Compressive Sensing Techniques참고 문헌 40인용 수 60
한 줄 요약

이 논문은 뉴턴 방법의 하향 수렴 속도를 향상시키기 위해 고유값 임계값 처리와 무작위 샘플링을 조합한 NewSamp를 제안한다. 이 방법은 최소화점 근처에서는 이차 수렴 속도를, 후속 단계에서는 선형 수렴 속도를 달성하며, 반복당 비용은 O(np + |S|p²)이다. 단계 크기 조정 없이도 안정적인 성능을 보이며, 헤시안 행렬의 조건수 대신 더 온건한 스펙트럼 비율(λ*_{r+1}/λ*_{p})을 사용하여 수렴 성능을 향상시킨다.

ABSTRACT

We consider the problem of minimizing a sum of $n$ functions over a convex parameter set $\mathcal{C} \subset \mathbb{R}^p$ where $n\gg p\gg 1$. In this regime, algorithms which utilize sub-sampling techniques are known to be effective. In this paper, we use sub-sampling techniques together with low-rank approximation to design a new randomized batch algorithm which possesses comparable convergence rate to Newton's method, yet has much smaller per-iteration cost. The proposed algorithm is robust in terms of starting point and step size, and enjoys a composite convergence rate, namely, quadratic convergence at start and linear convergence when the iterate is close to the minimizer. We develop its theoretical analysis which also allows us to select near-optimal algorithm parameters. Our theoretical results can be used to obtain convergence rates of previously proposed sub-sampling based algorithms as well. We demonstrate how our results apply to well-known machine learning problems. Lastly, we evaluate the performance of our algorithm on several datasets under various scenarios.

연구 동기 및 목표

  • n ≫ p 인 대규모 머신러닝 환경에서 뉴턴 방법의 높은 반복당 비용을 해결한다.
  • 평탄한(저곡률) 방향에서 부분 샘플링 헤시안 근사가 불안정해지는 문제를 고유값 임계값 처리를 통해 해결한다.
  • 두 번째 순서 수렴 성질을 유지하면서 계산 비용을 줄이는 무작위 배치 알고리즘을 설계한다.
  • 서브샘플링 기반 수렴 속도를 이론적으로 분석하고 최적의 파라미터 선택을 위한 지침을 제공한다.
  • 실제 데이터셋에서의 성능을 입증하고 기존 최적화 알고리즘과 비교한다.

제안 방법

  • 데이터 포인트의 더 작은 집합 S를 사용하여 헤시안 행렬을 부분 샘플링으로 근사함으로써, 반복당 비용을 O(np + |S|p²)로 감소시킨다.
  • 고유값 임계값 처리 적용: r번째 이하의 모든 고유값을 (r+1)번째 고유값과 동일하게 간주하여 평탄한 방향에서 헤시안 근사의 안정성을 확보한다.
  • 저랭크 절단을 통해 정규화된 역헤시안 근사로 스케일링 행렬 Q^t를 구성함으로써 수치적 안정성을 확보한다.
  • 고정된 단계 크기 η_t = 1을 사용하여 선형 탐색이나 조정이 필요 없도록 한다.
  • 凸집합 C ⊂ ℝ^p 위에서 부분 샘플링 헤시안을 투영 뉴턴 반복과 통합한다.
  • 무작위 행렬 이론과 농도 부등식(예: 행렬 체르노프 경계)을 활용하여 헤시안 근사 오차에 대한 확률적 경계를 유도한다.

실험 결과

연구 질문

  • RQ1서브샘플링 헤시안 근사가 초기(이차) 및 후속(선형) 단계에서 신뢰할 수 있는 수렴을 달성하도록 안정화될 수 있는가?
  • RQ2고유값 임계값 처리를 적용한 서브샘플링 뉴턴 방법의 이론적 수렴 속도는 무엇인가?
  • RQ3서브샘플 크기 |S|와 절단 랭크 r의 선택이 수렴과 강건성에 미치는 영향는 어떠한가?
  • RQ4선형 탐색이나 단계 크기 조정 없이도 이차 수렴을 달성할 수 있는가?
  • RQ5헤시안의 조건수 수렴에 미치는 영향는 무엇이며, 스펙트럼 절단을 통해 이를 완화할 수 있는가?

주요 결과

  • NewSamp는 복합 수렴 속도를 달성한다: 최소화점 근처에서는 이차 수렴, 후속 단계에서는 선형 수렴이며, 수렴 계수에 대한 명시적 경계를 제공한다.
  • 점 渐진적 선형 수렴 계수는 lim_{t→∞} ξ₁^t = 1 - (λ*_{p}/λ*_{r+1}) + δ를 만족하며, δ는 작고, 나쁜 조건수를 가진 (λ*₁/λ*_{p}) 대신 더 나은 조건수를 가진 (λ*_{r+1}/λ*_{p})로 대체된다.
  • 초기 조건과 단계 크기의 영향에 강건하며, 선형 탐색 없이도 η_t = 1로 수렴을 달성한다.
  • 반복당 비용은 O(np + |S|p²)이며, 뉴턴 방법의 O(np² + p³)보다 현저히 낮으며, 특히 |S| ≪ n일 경우 유리하다.
  • 이론적 분석을 통해 기존에 제안된 서브샘플링 알고리즘의 수렴 속도를 파rameter 조정으로 도출할 수 있다.
  • 네 개의 실데이터셋에 대한 실험 평가에서 NewSamp는 표준 경사 하강법과 준뉴턴 방법보다 수렴 속도와 강건성에서 뛰어난 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.