QUICK REVIEW

[논문 리뷰] Parsimonious Deep Learning: A Differential Inclusion Approach with Global Convergence.

Yanwei Fu, Chen Liu|arXiv (Cornell University)|2019. 05. 23.

Stochastic Gradient Optimization Techniques참고 문헌 20인용 수 4

한 줄 요약

이 논문은 역 스케일 스페이스의 미분 포함을 사용하여 신경망 복잡도를 단순한 모델에서 복잡한 모델로 체계적으로 증가시키는 간결한 딥러닝 프레임워크를 제안한다. 전역 수렴이 보장되는 Split Linearized Bregman 반복을 활용하여 과도한 파rameter화 없이 효율적이고 해석 가능한 모델 탐색을 가능하게 하며, MNIST, CIFAR-10/100, ImageNet에서 뛰어난 성능을 보인다.

ABSTRACT

Over-parameterization is ubiquitous nowadays in training neural networks to benefit both optimization in seeking global optima and generalization in reducing prediction error. However, compressive networks are desired in many real world applications and direct training of small networks may be trapped in local optima. In this paper, instead of pruning or distilling an over-parameterized model to compressive ones, we propose a parsimonious learning approach based on differential inclusions of inverse scale spaces, that generates a family of models from simple to complex ones with a better efficiency and interpretability than stochastic gradient descent in exploring the model space. It enjoys a simple discretization, the Split Linearized Bregman Iterations, with provable global convergence that from any initializations, algorithmic iterations converge to a critical point of empirical risks. One may exploit the proposed method to boost the complexity of neural networks progressively. Numerical experiments with MNIST, Cifar-10/100, and ImageNet are conducted to show the method is promising in training large scale models with a favorite interpretability.

연구 동기 및 목표

최적화 과정에서 국소 최적점에 갇히기 쉬운 작은 압축 신경망을 훈련하는 데 도전하는 것.
모델 압축을 위한 기존의 프루닝 및 distillation 방법의 비효율성과 해석 불가능성 문제를 해결하는 것.
제어 가능하고 전역 수렴 보장 방식으로 단순한 구조에서 복잡한 아키텍처로 체계적으로 모델 복잡도를 탐색하는 방법을 개발하는 것.
과도한 파rameter화 초기화에 의존하지 않고도 대규모 모델을 효율적이고 해석 가능하게 훈련할 수 있도록 하는 것.

제안 방법

진행적인 모델 복잡도를 모델링하기 위해 역 스케일 스페이스 기반의 미분 포함으로 학습 과정을 수식화한다.
미분 포함의 안정적이고 효율적인 수치 이산화를 위해 Split Linearized Bregman 반복을 사용한다.
어떤 초기화로부터라도 경험 리스크의 임계점을 전역적으로 수렴함을 보장하여 강력한 최적화를 보장한다.
모델 복잡도를 제어하는 정규화 경로를 도입하여 단순한 아키텍처에서 복잡한 아키텍처로 점진적인 증가를 가능하게 한다.
표준 딥러닝 파ip라인에 통합하여 해석 가능성과 함께 엔드 투 엔드 훈련을 지원한다.
역 스케일 스페이스의 구조를 활용하여 모델 성장 중 안정성과 수렴성을 유지한다.

실험 결과

연구 질문

RQ1미분 포함 프레임워크는 과도한 파arameter화 없이도 소규모 신경망 훈련에서 전역 수렴을 가능하게 할 수 있는가?
RQ2제안된 방법은 일반화 성능를 달성하면서 모델 복잡도 탐색에서 확률적 경사 하강법(SGD)보다 어떻게 다를까?
RQ3이 방법은 어떤 정도까지 해석 가능성과 수렴성을 유지하면서 체계적으로 모델 복잡도를 증가시킬 수 있는가?
RQ4이 방법은 프루닝이나 distillation 없이도 ImageNet과 같은 표준 벤치마크에서 경쟁 가능한 성능을 달성할 수 있는가?

주요 결과

제안된 방법은 어떤 초기화로부터라도 경험 리스크의 임계점으로 전역 수렴을 달성하여 강력한 최적화를 보장한다.
Split Linearized Bregman 반복 기법은 미분 포함 프레임워크의 단순하고 안정적인 이산화를 가능하게 한다.
MNIST, CIFAR-10/100, ImageNet에서의 수치 실험 결과, 이 방법은 높은 해석 가능성과 함께 대규모 모델 훈련에 효과적임을 보였다.
이 방법은 점진적인 모델 복잡도 증가를 가능하게 하여, 모델 공간 탐색에서 표준 SGD보다 더 뛰어난 해석 가능성과 효율성을 제공한다.
이 방법은 과도한 파arameter화된 모델이나 프루닝, distillation과 같은 후행 압축 기법이 필요 없음을 보였다.
다양한 데이터셋에서의 강력한 경험적 성능을 통해 이 프레임워크의 확장성과 강인성을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.