Skip to main content
QUICK REVIEW

[논문 리뷰] meProp: Sparsified Back Propagation for Accelerated Deep Learning with Reduced Overfitting

Xu Sun, Xuancheng Ren|arXiv (Cornell University)|2017. 06. 19.
Neural Networks and Applications참고 문헌 27인용 수 84
한 줄 요약

meProp은 상위 k 크기 요소만 남겨 역전파 그래디언트를 희소화하고, 한 단계에 업데이트하는 가중치의 소수의 부분집합만 업데이트하여 큰 속도 향상을 달성합니다(업데이트된 가중치의 1–4%). LSTM/MLP 모델과 작업 전반에서 종종 정확도가 향상됩니다.

ABSTRACT

We propose a simple yet effective technique for neural network learning. The forward propagation is computed as usual. In back propagation, only a small subset of the full gradient is computed to update the model parameters. The gradient vectors are sparsified in such a way that only the top-$k$ elements (in terms of magnitude) are kept. As a result, only $k$ rows or columns (depending on the layout) of the weight matrix are modified, leading to a linear reduction ($k$ divided by the vector dimension) in the computational cost. Surprisingly, experimental results demonstrate that we can update only 1-4% of the weights at each back propagation pass. This does not result in a larger number of training iterations. More interestingly, the accuracy of the resulting models is actually improved rather than degraded, and a detailed analysis is given. The code is available at https://github.com/lancopku/meProp

연구 동기 및 목표

  • 더 빠른 신경망 훈련을 유도하기 위해 역전파 비용을 희생 없이 줄인다.
  • 역전파 업데이트를 희소화하기 위한 top-k 그래디언트 선택 메커니즘을 도입한다.
  • 일부 가중치의 업데이트가 일반화 및 학습 효율성을 개선할 수 있음을 모델과 작업 전반에서 보여준다.

제안 방법

  • 전방 전달을 보통대로 수행한다.
  • 출력에 대한 그래디언트의 상위-k 크기 성분만 역전파하고 나머지는 0으로 만든다.
  • 상위-k 그래디언트에 의해 영향을 받는 매개변수의 해당 부분집합(행/열)만 업데이트한다.
  • 시간 복잡도 O(n log k)이고 공간 복잡도 O(k)인 최소 히프(min-heap) 기반 top-k 선택을 사용한다.
  • 은닉층에 meProp를 적용하고(항상 출력층은 아님) 서로 다른 층에 대해 서로 다른 k를 논의한다.
  • Adam, AdaGrad와 같은 옵티마이저로부터의 독립성을 입증하고, LSTM/MLP, POS 태깅, 구문 분석, MNIST 전반에서 CPU/GPU 속도 향상을 보인다.

실험 결과

연구 질문

  • RQ1희소화된 역전파가 상위-k 그래디언트 구성요소로 축소될 때 정확도에 손해 없이 계산 비용이 감소하는가?
  • RQ2다양한 아키텍처와 작업에서 상위-k meProp가 학습 속도와 수렴에 어떤 영향을 미치는가?
  • RQ3관측된 정확도 향상이 드롭아웃과 유사한 과적합 감소 때문인가, 아니면 다른 메커니즘 때문인가?
  • RQ4다양한 층과 작업에 대해 k를 선택하는 실용적인 가이드라인은 무엇인가?

주요 결과

  • 역전파 비용은 역전파 패스마다 1–4%의 가중치만 업데이트함으로써 감소한다.
  • meProp는 상당한 속도 향상을 달성한다: 일부 행렬 곱 셋에서 GPU 벤치마크에서 최대 ~69배 더 빠른 역전파와 보고된 설정에서 18–31배의 속도 향상을 보이며, 이는 k와 모델에 따라 다르다.
  • 모델 정확도는 LSTM/MLP, Adam/AdaGrad, NLP/이미지 작업 전반에서 종종 meProp로 향상된다.
  • Top-k 그래디언트 선택은 무작위 희소화보다 우수하여 상위-k 요소가 가장 중요한 그래디언트 정보를 담고 있음을 시사한다.
  • meProp 사용은 드롭아웃과 보완적으로 작동하여 서로 다른 과적합 감소 메커니즘을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.