QUICK REVIEW

[논문 리뷰] A Progressive Batching L-BFGS Method for Machine Learning

Raghu Bollapragada, Dheevatsa Mudigere|arXiv (Cornell University)|2018. 02. 15.

Stochastic Gradient Optimization Techniques참고 문헌 40인용 수 57

한 줄 요약

PBQN을 소개합니다. 진행 배치(quasi-Newton) 알고리즘으로, 점진적 샘플링, 확률적 Armijo 스타일의 선 탐색, 그리고 안정적인 L-BFGS 업데이트를 결합하여 로지스틱 회귀와 딥 네트워크를 좋은 일반화와 병렬성으로 학습합니다. 수렴 이론은 볼록 및 비볼록 설정 모두에 대해 제공됩니다.

ABSTRACT

The standard L-BFGS method relies on gradient approximations that are not dominated by noise, so that search directions are descent directions, the line search is reliable, and quasi-Newton updating yields useful quadratic models of the objective function. All of this appears to call for a full batch approach, but since small batch sizes give rise to faster algorithms with better generalization properties, L-BFGS is currently not considered an algorithm of choice for large-scale machine learning applications. One need not, however, choose between the two extremes represented by the full batch or highly stochastic regimes, and may instead follow a progressive batching approach in which the sample size increases during the course of the optimization. In this paper, we present a new version of the L-BFGS algorithm that combines three basic components - progressive batching, a stochastic line search, and stable quasi-Newton updating - and that performs well on training logistic regression and deep neural networks. We provide supporting convergence theory for the method.

연구 동기 및 목표

확률적 방법의 속도와 전체 배치 쿼즈-뉴턴 접근의 정확성을 결합하기 위해 진행 배치를 사용하도록 동기를 부여합니다.
진행 샘플링, 확률적 선 탐색, 안정적인 L-BFGS 업데이트를 통합하는 PBQN 알고리즘을 개발합니다.
진행 샘플링 하에서 강하게 볼록한 목적함수와 비볼록 목적함수 모두에 대한 수렴 이론을 제공합니다.
로지스틱 회귀와 신경망에서 방법을 시연하여 성능과 일반화를 평가합니다.
실용적 측면과 병렬/분산 구현의 가능성에 대해 논의합니다.

제안 방법

PBQN 제안: x_{k+1} = x_{k} - α_{k} H_{k} g_{k}^{S_{k}} with H_{k} from L-BFGS and g_{k}^{S_{k}} as a subsampled gradient.
실제 방향과의 각도에 기반한 확률적 내적-Quasi-Newton(IPQN) 테스트가 만족되지 않으면 배치 크기 |S_{k}|가 증가하는 진행 샘플링 체계를 사용합니다.
내적 테스트를 2차 순서 방법으로 확장하여 탐색 방향이 높은 확률로 진짜 준-뉴턴 방향과 일치하도록 보장합니다.
분산 정보를 반영한 추정치(Eq. 14)에 guided된 초기 스텝 α_{k}로 기대값의 감소를 보장하기 위한 Armijo 스타일의 백트래킹 선 탐색을 도입합니다.
배치가 반복 간에 변경될 때 해시슨 업데이트를 안정시키기 위한 오버랩(overlap) 기반 전략(y_{k} = g_{k+1}^{O_{k}} - g_{k}^{O_{k}})을 사용합니다.
y_{k} 계산에 대한 두 가지 옵션을 제공합니다: 오버랩 25%인 다중 배치(MB) 및 풀 오버랩(FO) 방식, 그리고 업데이트 적합성 조건으로 y_{k}^{T}s_{k} > ε‖s_{k}‖^{2}를 사용합니다.

실험 결과

연구 질문

RQ1Progressive batching과 확률적 선 탐색이 ML 설정에서 준-뉴턴 업데이트에 대해 신뢰할 수 있는 하강 방향을 제공할 수 있나요?
RQ2PBQN 방법이 SG 기반 방법과 비교하여 로지스틱 회귀 및 심층 신경망에서 학습 및 일반화 성능이 경쟁력 있나요?
RQ3진행 샘플링 하에서 PBQN의 강하게 볼록하고 비볼록 구간에 대한 수렴 보장은 무엇인가요?
RQ4곡률 쌍에 대한 배치 오버랩 선택이 안정성 및 성능에 어떤 영향을 미치나요?
RQ5PBQN이 병렬/분산 구현에 적합하여 좋은 확장성을 달성할 수 있나요?

주요 결과

PBQN은 로지스틱 회귀에서 학습 오차, 테스트 손실, 테스트 정확도 면에서 SG 및 SVRG와 데이터셋 전반에 걸쳐 양호하게 경쟁합니다.
MB 곡률 벡터 접근법은 일반적으로 로지스틱 회귀 실험에서 FO보다 우수한 성능을 보입니다.
신경망에서 PBQN은 SG 및 Adam과 유사한 최상의 테스트 정확도를 달성하지만 더 적은 반복으로 더 많은 그래디언트 평가를 수행합니다.
분산 기반 수식(Eq. 14)에서의 초기 스텝 길이는 선 탐색에 의해 안정적으로 수용되어 역추적이 효율적입니다.
수렴 이론은 적절한 스텝 크기 하에서 강하게 볼록한 F에 대해 선형 수렴을 보이고, 표준 매끄러움 및 한정된 조건 하에서 비볼록 F에 대해 그래디언트 노름 수렴을 보입니다.
2차 정보 덕분에 파라미터 조정이 거의 필요하지 않고, 테스트된 문제들에서 강건성을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.