QUICK REVIEW

[논문 리뷰] A stochastic subspace approach to gradient-free optimization in high dimensions

David Kozak, Stephen Becker|arXiv (Cornell University)|2020. 03. 04.

Stochastic Gradient Optimization Techniques참고 문헌 75인용 수 23

한 줄 요약

이 논문은 함수 평가가 비용이 많이 들기 때문에 기울기가 비용이 많이 들거나 이용할 수 없는 고차원 최적화 문제를 위한 확률적 부분공간 강하 방법을 제안한다. 이 방법은 난수로 생성된 저차원 부분공간을 사용하여 기울기를 근사함으로써 효율적인 최적화를 가능하게 한다. 볼록성 하에서 기대값에 대한 수렴을 달성하고, 강한 볼록성 하에서는 확률적 수렴을 보이며, 이론적 보장은 1보다 큰 차원의 부분공간으로 확장된 가우시안 스무딩 기법과 새로운 유한차원 존슨-린든스트라우스 변형을 포함한다.

ABSTRACT

We present a stochastic descent algorithm for unconstrained optimization that is particularly efficient when the objective function is slow to evaluate and gradients are not easily obtained, as in some PDE-constrained optimization and machine learning problems. The algorithm maps the gradient onto a low-dimensional random subspace of dimension $\ell$ at each iteration, similar to coordinate descent but without restricting directional derivatives to be along the axes. Without requiring a full gradient, this mapping can be performed by computing $\ell$ directional derivatives (e.g., via forward-mode automatic differentiation). We give proofs for convergence in expectation under various convexity assumptions as well as probabilistic convergence results under strong-convexity. Our method extends the well-known Gaussian smoothing technique to descent in subspaces of dimension greater than one, opening the doors to new analysis of Gaussian smoothing when more than one directional derivative is used at each iteration. We also provide a finite-dimensional variant of a special case of the Johnson-Lindenstrauss lemma. Experimentally, we show that our method compares favorably to coordinate descent, Gaussian smoothing, gradient descent and BFGS (when gradients are calculated via forward-mode automatic differentiation) on problems from the machine learning and shape optimization literature.

연구 동기 및 목표

기울기가 비용이 많이 들거나 이용할 수 없는 고차원 함수 최적화 문제에 도전하는 것, 특히 PDE 제약 최적화 및 기계학습 환경에서의 적용을 고려하는 것.
각 반복에서 함수 평가 횟수를 차원 d 이하로 줄이면서도 수렴 보장을 유지하는 방법을 개발하는 것.
가우시안 스무딩 기법을 1차원 방향 도함수를 초월하여 고차원 부분공간으로 확장하는 것.
볼록성 및 강한 볼록성 하에서 확률적 부분공간 강하의 이론적 수렴 결과—기대값과 확률적으로 수렴하는 결과—제시하는 것.
기계학습 및 형상 최적화 문제에서의 벤치마크 문제를 대상으로 좌표 강하, 가우시안 스무딩, 기울기 강하, BFGS와의 비교에서 본 방법의 우월성을 입증하는 것.

제안 방법

기울기를 난수로 생성된 ℓ 차원 부분공간에 사영하는 데 사용되는 랜덤 행렬 Pk ∈ Rd×ℓ 를 통해 ℓ 개의 방향 도함수를 이용해 근사한다.
각 반복에서 ℓ 개의 함수 평가 비용으로 효율적으로 방향 도함수를 계산하기 위해 전진 모드 자동 미분을 사용한다.
E[PkPk⊤] = Id 와 Pk⊤Pk = (d/ℓ)Iℓ 를 확보하여 부분공간 내에서 적절한 스케일링과 등방성( isotropy )을 유지한다.
확률적 강하 업데이트를 적용한다: xk+1 = xk − αPkPk⊤∇f(xk), 여기서 α 는 고정된 스텝 사이즈이다.
유한차원 존슨-린든스트라우스 보조정리를 활용하여 부분공간이 기울기 노름을 높은 확률로 유지하도록 보장한다.
구형 대칭 랜덤 행렬 Pk (예: 하르 분포 또는 가우시안) 를 사용하여 강건한 부분공간 임bedding 과 확률적 수렴을 달성한다.

실험 결과

연구 질문

RQ1ℓ > 1 개의 방향 도함수를 사용하는 확률적 부분공간 접근법이 고차원 최적화에서 좌표 강하보다 수렴 속도와 견고성 측면에서 뛰어나게 될 수 있는가?
RQ2기울기가 랜덤 부분공간(차원 ℓ > 1)을 통해 근사될 경우, 부분공간 강하에 대해 어떤 이론적 수렴 보장을 확보할 수 있는가?
RQ3제안된 방법은 어떻게 가우시안 스무딩 기법을 1차원 방향을 초월하여 고차원 부분공간으로 확장하는가?
RQ4부분공간 차원 ℓ 와 전체 공간 차원 d 가 수렴 속도와 반복 복잡도에 어떤 영향을 미치는가?
RQ5강한 볼록성 하에서 본 방법이 확률적 수렴을 달성할 수 있으며, 각 반복에서 성공 확률은 얼마여야 하는가?

주요 결과

강한 볼록성 하에서 기대값에 대한 선형 수렴을 달성하며, 각 반복당 수렴 속도는 (1 − 2γαλ) 이다. 여기서 γ 는 강한 볼록성 파라미터이고, λ 는 기울기의 리프시츠 상수이다.
볼록 함수에 대해서는 스텝 사이즈 α = ℓ/(dλ) 를 사용할 경우 기대값의 최적화 갭이 O(1/k) 속도로 감소하며, k 번 반복 후 E[f(xk) − f∗] ≤ 2dλR²/(kℓ) 를 확보한다.
강한 볼록성 하에서 알고리즘이 거의 확실히 최적해 x∗ 로 수렴하며, k → ∞ 일 때 xk → x∗ 거의 확실히 성립한다.
성공적인 부분공간 임bedding 확률—기울기 노름의 최소 (1−ϵ) 를 유지하는 확률—는 1 − I(1−ϵ)ℓ/d(ℓ/2, (d−ℓ)/2) 이하로 하한이 보장된다. 여기서 I 는 정규화된 불완전 베타 함수이다.
본 방법은 각 반복에서 오직 ℓ 개의 함수 평가만 필요로 하며, 전체 기울기 계산에 필요한 d 보다 크게 줄어들고, 기울기가 전진 모드 자동 미분으로 계산될 경우 BFGS 및 기울기 강하보다 뛰어난 성능을 보인다.
실험 결과는 기계학습 및 형상 최적화 문제에서 좌표 강하, 가우시안 스무딩, BFGS와의 비교에서 본 방법이 고차원이며 함수 평가가 비용이 많이 드는 환경에서 뛰어난 성능을 보임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.