QUICK REVIEW

[논문 리뷰] Global Convergence of Block Coordinate Descent in Deep Learning

Jinshan Zeng, Tim Tsz Kit Lau|arXiv (Cornell University)|2018. 03. 01.

Stochastic Gradient Optimization Techniques인용 수 34

한 줄 요약

이 논문은 ReLU, 시그모이드, 잔차 연결 네트워크를 포함한 일반적으로 사용되는 모델에 대해 딥 러닝에서 블록 좌표 강하(BCD) 방법의 전역 수렴성을 확립한다. 커르디카-로자셰비츠 불등식 프레임워크를 확장함으로써, 블록 다중볼록성 또는 미분 가능성 조건을 필요로 하지 않고도 리프시츠 연속 기울기 가정 하에 O(1/k) 속도로 임계점으로의 수렴을 증명한다.

ABSTRACT

Deep learning has aroused extensive attention due to its great empirical success. The efficiency of the block coordinate descent (BCD) methods has been recently demonstrated in deep neural network (DNN) training. However, theoretical studies on their convergence properties are limited due to the highly nonconvex nature of DNN training. In this paper, we aim at providing a general methodology for provable convergence guarantees for this type of methods. In particular, for most of the commonly used DNN training models involving both two- and three-splitting schemes, we establish the global convergence to a critical point at a rate of ${\cal O}(1/k)$, where $k$ is the number of iterations. The results extend to general loss functions which have Lipschitz continuous gradients and deep residual networks (ResNets). Our key development adds several new elements to the Kurdyka-Łojasiewicz inequality framework that enables us to carry out the global convergence analysis of BCD in the general scenario of deep learning.

연구 동기 및 목표

딥 뉴럴 네트워크(DNN) 학습에서 비볼록, 비미분 가능 설정에서 블록 좌표 강하(BCD)에 대한 이론적 수렴 보장의 부족을 해결한다.
이전 방법들이 블록 다중볼록성 또는 미분 가능성 조건에 의존하는 한계를 극복하며, 시그모이드와 같은 일반적인 활성화 함수에서는 이러한 조건이 성립하지 않기 때문이다.
두 부분 분할 및 세 부분 분할 형태의 DNN 학습 목표 함수에 모두 적용 가능한 일반적인 수렴 프레임워크를 제공한다.
손실 함수와 네트워크 아키텍처의 광범위한 클래스에 대해, 잔차 네트워크(ResNets) 포함 BCD의 프록시멀 및 프록시멀-선형 전략을 통한 전역 수렴을 확립한다.

제안 방법

딥 러닝 목표 함수의 비볼록, 비스무스한 구조를 수용할 수 있도록 커르디카-로자셰비츠(KŁ) 불등식 프레임워크를 확장한다.
블록 다중볼록성에 의존하지 않고, 유한 집합에서 활성화 함수의 리프시츠 연속성에 기반한 새로운 분석 기법을 도입한다.
특히 ReLU 기반 네트워크에 적합한 비스무스한 정규화된 목표 함수를 다루기 위해 프록시멀 BCD 전략을 적용한다.
임의의 손실 함수에 대해 리프시츠 연속 기울기를 갖는 경우에 대해 프록시멀-선형 계획법의 수렴 분석을 일반화한다.
유사한 가정 하에 깊이 있는 잔차 네트워크(ResNets)에 대한 프레임워크를 적응시켜 수렴성을 증명한다.
제곱 손실, 힌지 손실 등 일반적인 손실 함수에 대해 닫힌 형태의 프록시멀 연산자를 사용하여 실용적 구현과 이론적 분석을 가능하게 한다.

실험 결과

연구 질문

RQ1블록 다중볼록성 또는 미분 가능성 조건을 가정하지 않고도 딥 뉴럴 네트워크에 대해 BCD의 전역 수렴을 확립할 수 있는가?
RQ2활성화 함수와 손실 함수에 어떤 조건이 있어야 DNN 학습에서 BCD의 전역 수렴이 보장되는가?
RQ3두 부분 분할 및 세 부분 분할 형태의 DNN 목표 함수에 대해 O(1/k) 수렴 속도가 유지되는가?
RQ4제안된 프레임워크는 잔차 네트워크(ResNets)와 일반적인 손실 함수를 다룰 수 있도록 확장될 수 있는가?
RQ5유한 집합에서 활성화 함수의 리프시츠 연속성이 비스무스한 비볼록 설정에서 수렴 분석을 어떻게 가능하게 하는가?

주요 결과

논문은 ReLU 및 시그모이드 활성화 함수를 포함한 일반적으로 사용되는 대부분의 DNN 학습 모델에 대해, BCD가 임계점으로 O(1/k) 속도로 전역 수렴함을 확립한다.
손실 함수의 기울기가 리프시츠 연속이고 활성화 함수가 유한 집합에서 리프시츠 연속일 경우에 수렴이 증명된다.
이 프레임워크는 DNN 목표 함수의 두 부분 분할 및 세 부분 분할 형태 모두에 적용 가능하며, 광범위한 학습 설정을 커버한다.
분석은 깊이 있는 잔차 네트워크(ResNets)로까지 확장되어 동일한 가정 하에 BCD의 전역 수렴을 입증한다.
프록시멀 및 프록시멀-선형 전략 모두가 전역 수렴을 보이며, 특히 정규화된 문제에 있어서 프록시멀 방법이 뛰어난 성능을 보인다.
실험 결과는 BCD가 Vanishing Gradient 문제로 인해 실패하는 경우가 많은 깊은 MLP(예: MNIST 데이터셋의 10층 네트워크) 학습에서 기존 SGD를 능가함을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.