QUICK REVIEW

[논문 리뷰] To Drop or Not to Drop: Robustness, Consistency and Differential Privacy Properties of Dropout

Prateek Jain, Vivek Kulkarni|arXiv (Cornell University)|2015. 03. 06.

Privacy-Preserving Technologies in Data참고 문헌 27인용 수 25

한 줄 요약

이 논문은 깊이 있는 신경망에서 드롭아웃의 이론적 기초를 확립하여, 한 은닉층을 가진 신경망에서 강건성과 일관성을 향상시키고, 볼록 경험 리스크 최소화(ERM)에서 안정화 정규화 기법으로 기능함을 증명한다. 드롭아웃이 일반화 오차율을 신속하게 줄이고, 강력한 볼록성 조건이 필요 없이 비밀성 보장 학습을 가능하게 하며, 벤치마크 데이터셋에서의 실험 평가에서 L2 정규화를 능가함을 보여준다.

ABSTRACT

Training deep belief networks (DBNs) requires optimizing a non-convex function with an extremely large number of parameters. Naturally, existing gradient descent (GD) based methods are prone to arbitrarily poor local minima. In this paper, we rigorously show that such local minima can be avoided (upto an approximation error) by using the dropout technique, a widely used heuristic in this domain. In particular, we show that by randomly dropping a few nodes of a one-hidden layer neural network, the training objective function, up to a certain approximation error, decreases by a multiplicative factor. On the flip side, we show that for training convex empirical risk minimizers (ERM), dropout in fact acts as a "stabilizer" or regularizer. That is, a simple dropout based GD method for convex ERMs is stable in the face of arbitrary changes to any one of the training points. Using the above assertion, we show that dropout provides fast rates for generalization error in learning (convex) generalized linear models (GLM). Moreover, using the above mentioned stability properties of dropout, we design dropout based differentially private algorithms for solving ERMs. The learned GLM thus, preserves privacy of each of the individual training points while providing accurate predictions for new test points. Finally, we empirically validate our stability assertions for dropout in the context of convex ERMs and show that surprisingly, dropout significantly outperforms (in terms of prediction accuracy) the L2 regularization based methods for several benchmark datasets.

연구 동기 및 목표

비볼록 최적화를 포함한 깊이 있는 믿음 네트워크(DBNs)에서 드롭아웃이 나쁜 국소 최솟값을 피하는 이유를 이론적으로 설명하는 것.
드롭아웃이 볼록 ERM 설정에서 안정화 정규화 기법으로 작용함을 입증하여, 훈련 데이터 변형에 대한 강건성을 보장하는 것.
강력한 볼록성이 필요 없이 드롭아웃을 활용한 새로운 비밀성 보장 학습 알고리즘을 설계하는 것.
다양한 데이터셋과 모델 유형에서 L2 정규화와 비교하여 드롭아웃의 안정성과 일반화 성능을 실험적으로 검증하는 것.

제안 방법

한 은닉층 신경망에서, 최적값에 가까이 있지 않을 경우 드롭아웃이 목적 함수를 상수 확률로 곱수 인자로 감소시킴을 증명한다.
드롭아웃이 볼록 ERM에서 가중 L2 정규화의 형태를 유도함을 분석하여, 빠른 초과 위험율을 도출한다.
훈련 데이터 제거 시 알고리즘 안정성(LOO 안정성)을 활용하여 비밀성 보장 학습 알고리즘을 설계한다.
비밀성 보장 확보를 위해 헤시안의 기대 최소 고유값에 하한선만 필요로 하여 강력한 볼록성이 필요 없음을 보장한다.
실험에서 결정론적 드롭아웃과 표준 드롭아웃 변형을 활용하여 무작위 및 적대적 훈련 데이터 제거 상황에서의 안정성을 비교한다.
로지스틱 회귀, 선형 회귀, DBNs에서 훈련 데이터를 부분적으로 제거했을 때의 테스트 오차 차이를 측정하여 안정성을 평가한다.

실험 결과

연구 질문

RQ1비볼록 딥 러닝에서 드롭아웃은 어떤 조건에서 나쁜 국소 최솟값으로의 수렴을 방지하는가?
RQ2볼록 경험 리스크 최소화(ERM) 문제에서 드롭아웃은 안정성과 일반화 오차에 어떻게 영향을 미치는가?
RQ3강력한 볼록성이 필요 없이 드롭아웃을 사용해 비밀성 보장 학습 알고리즘을 설계할 수 있는가?
RQ4훈련 데이터 변형에 대한 강건성 측면에서 드롭아웃은 L2 정규화와 어떻게 비교되는가?

주요 결과

한 은닉층 네트워크에서 최적값에 가까이 있지 않을 경우 드롭아웃이 목적 함수를 상수 확률로 곱수 인자로 감소시켜, 나쁜 국소 최솟값을 피하는 데 이론적 근거를 제공한다.
볼록 ERM 설정에서 드롭아웃은 가중 L2 정규화와 유사한 빠른 초과 위험율을 유도하며, 이전 연구보다 더 날카운 일반화 경계를 제공한다.
드롭아웃 기반 알고리즘은 강력한 볼록성이 필요 없이 비밀성 보장 학습을 달성하며, 헤시안의 기대 최소 고유값에 대한 하한선만으로도 가능하다.
실험적으로, 로지스틱 회귀 및 선형 회귀 과제에서 무작위 및 적대적 훈련 데이터 제거 상황에서 드롭아웃은 L2 정규화보다 더 높은 안정성을 보였다.
Atheist 데이터셋에서 드롭아웃 기반 모델은 L2 정규화 모델보다 높은 정확도를 달성했으며, 데이터 제거 비율이 50%에 이르는 상황에서도 이 우월성이 유지되었다.
MNIST에서 드롭아웃은 훈련 데이터의 50%만 사용할 경우 표준 SGD 대비 테스트 정확도를 16% 향상시켜 강력한 강건성과 일반화 능력을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.