QUICK REVIEW

[논문 리뷰] meProp: Sparsified Back Propagation for Accelerated Deep Learning with Reduced Overfitting

Xu Sun, Xuancheng Ren|arXiv (Cornell University)|2017. 06. 19.

Neural Networks and Applications참고 문헌 27인용 수 84

한 줄 요약

meProp은 상위 k 크기 요소만 남겨 역전파 그래디언트를 희소화하고, 한 단계에 업데이트하는 가중치의 소수의 부분집합만 업데이트하여 큰 속도 향상을 달성합니다(업데이트된 가중치의 1–4%). LSTM/MLP 모델과 작업 전반에서 종종 정확도가 향상됩니다.

ABSTRACT

We propose a simple yet effective technique for neural network learning. The forward propagation is computed as usual. In back propagation, only a small subset of the full gradient is computed to update the model parameters. The gradient vectors are sparsified in such a way that only the top-$k$ elements (in terms of magnitude) are kept. As a result, only $k$ rows or columns (depending on the layout) of the weight matrix are modified, leading to a linear reduction ($k$ divided by the vector dimension) in the computational cost. Surprisingly, experimental results demonstrate that we can update only 1-4% of the weights at each back propagation pass. This does not result in a larger number of training iterations. More interestingly, the accuracy of the resulting models is actually improved rather than degraded, and a detailed analysis is given. The code is available at https://github.com/lancopku/meProp

연구 동기 및 목표

더 빠른 신경망 훈련을 유도하기 위해 역전파 비용을 희생 없이 줄인다.
역전파 업데이트를 희소화하기 위한 top-k 그래디언트 선택 메커니즘을 도입한다.
일부 가중치의 업데이트가 일반화 및 학습 효율성을 개선할 수 있음을 모델과 작업 전반에서 보여준다.

제안 방법

전방 전달을 보통대로 수행한다.
출력에 대한 그래디언트의 상위-k 크기 성분만 역전파하고 나머지는 0으로 만든다.
상위-k 그래디언트에 의해 영향을 받는 매개변수의 해당 부분집합(행/열)만 업데이트한다.
시간 복잡도 O(n log k)이고 공간 복잡도 O(k)인 최소 히프(min-heap) 기반 top-k 선택을 사용한다.
은닉층에 meProp를 적용하고(항상 출력층은 아님) 서로 다른 층에 대해 서로 다른 k를 논의한다.
Adam, AdaGrad와 같은 옵티마이저로부터의 독립성을 입증하고, LSTM/MLP, POS 태깅, 구문 분석, MNIST 전반에서 CPU/GPU 속도 향상을 보인다.

실험 결과

연구 질문

RQ1희소화된 역전파가 상위-k 그래디언트 구성요소로 축소될 때 정확도에 손해 없이 계산 비용이 감소하는가?
RQ2다양한 아키텍처와 작업에서 상위-k meProp가 학습 속도와 수렴에 어떤 영향을 미치는가?
RQ3관측된 정확도 향상이 드롭아웃과 유사한 과적합 감소 때문인가, 아니면 다른 메커니즘 때문인가?
RQ4다양한 층과 작업에 대해 k를 선택하는 실용적인 가이드라인은 무엇인가?

주요 결과

역전파 비용은 역전파 패스마다 1–4%의 가중치만 업데이트함으로써 감소한다.
meProp는 상당한 속도 향상을 달성한다: 일부 행렬 곱 셋에서 GPU 벤치마크에서 최대 ~69배 더 빠른 역전파와 보고된 설정에서 18–31배의 속도 향상을 보이며, 이는 k와 모델에 따라 다르다.
모델 정확도는 LSTM/MLP, Adam/AdaGrad, NLP/이미지 작업 전반에서 종종 meProp로 향상된다.
Top-k 그래디언트 선택은 무작위 희소화보다 우수하여 상위-k 요소가 가장 중요한 그래디언트 정보를 담고 있음을 시사한다.
meProp 사용은 드롭아웃과 보완적으로 작동하여 서로 다른 과적합 감소 메커니즘을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.