Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Rewiring: Training very sparse deep networks

Guillaume Bellec, David Kappel|arXiv (Cornell University)|2017. 11. 14.
Advanced Vision and Imaging참고 문헌 2인용 수 134
한 줄 요약

DEEP R은 네트워크 가중치와 아키텍처를 동시에 샘플링하여 엄격한 연결 한도 아래에서 심층 네트워크를 학습시키며, 성능 손실이 거의 없는 매우 희박한 네트워크를 가능하게 한다.

ABSTRACT

Neuromorphic hardware tends to pose limits on the connectivity of deep networks that one can run on them. But also generic hardware and software implementations of deep learning run more efficiently for sparse networks. Several methods exist for pruning connections of a neural network after it was trained without connectivity constraints. We present an algorithm, DEEP R, that enables us to train directly a sparsely connected neural network. DEEP R automatically rewires the network during supervised training so that connections are there where they are most needed for the task, while its total number is all the time strictly bounded. We demonstrate that DEEP R can be used to train very sparse feedforward and recurrent neural networks on standard benchmark tasks with just a minor loss in performance. DEEP R is based on a rigorous theoretical foundation that views rewiring as stochastic sampling of network configurations from a posterior.

연구 동기 및 목표

  • 딥 러닝의 하드웨어 구현에서 메모리 및 에너지 효율성에 대한 필요성을 제시한다.
  • 가중치를 학습하는 동시에 하드 연결 제약을 갖는 학습에 대한 원리적인 프레임워크를 도입한다.
  • 감독 학습 중 연결을 재배선하여 항상 고정된 수의 활성 시냅스를 유지하는 알고리즘을 개발한다.
  • 메소가 네트워크 구성에 대한 온화한(posteriors tempered) 후방분포에서 샘플링함에 대한 이론적 보장을 제공한다.
  • 희박한 연결성을 가진 완전 연결, 합성곱 및 순환 아키텍처에 대한 적용 가능성을 시연한다.

제안 방법

  • 각 잠재 연결에 부호 s_k와 음이 아닌 파라미터 θ_k를 부여하고, 활성일 때 w_k = s_k θ_k, 비활성일 때 w_k = 0이 되도록 한다.
  • 손실에 L1 정규화 항을 더한 그래디언트 강하로 활성화된 θ_k를 업데이트하고, 확률적 그래디언트 MCMC 단계를 구현하기 위해 가우시안 노이즈를 추가한다.
  • 휴면 연결은 가지치기되어(θ_k < 0) 무작위로 활성화된 휴면 연결로 교체되어 항상 정확히 K개의 활성 연결을 유지한다.
  • 학습을 하드 연결 제약 조건을 제시된 완화된 후방분포 p*(θ)에서의 샘플링으로 공식화하여, 가중치와 네트워크 구성을 실제로 함께 샘플링한다.
  • 제약된 가지치기/배선 동역학(soft-DEEP R 및 DEEP R) 하에서 정상분포로의 수렴을 보이는 이론적 매핑을 제공한다.
  • MNIST, CIFAR-10, 및 TIMIT에서 가지치기 기반 비교와 함께 DEEP R 및 soft-DEEP R을 비교하여 희박한 네트워크가 성능을 유지할 수 있음을 보인다.

실험 결과

연구 질문

  • RQ1전체 연결 수에 엄격한 한계가 있을 때도 신경망을 학습시켜 경쟁력 있는 정확도를 달성할 수 있는가?
  • RQ2가중치 학습과 동적 재배선을 동시에 수행하는 것이 학습 후 가지치기나 고정 희소성 기반 기준선보다 더 나은 희소 해를 제공하는가?
  • RQ3제안된 방법들이 완전 연결, 합성곱 및 순환 아키텍처 전반에 일반화되는가?
  • RQ4제약된 확률적 재배선 과정의 수렴 특성과 이론적 보장은 무엇인가?
  • RQ5일정한 연결 예산 하에서 전이 학습이나 온라인 적응을 이 방법이 지원할 수 있는가?

주요 결과

  • DEEP R은 MNIST에서 1.3%의 연결성으로 96.2%, 확장 학습 후 1.0%의 연결성으로 96.3%를 달성한다.
  • CIFAR-10에서 DEEP R은 5% 연결성에서 84.1% 정확도를 달성하고 20% 연결성에서 완전 연결 성능에 근접한다.
  • DEEP R 및 soft-DEEP R은 가지치기 및 L1 축소 방법보다 우수하거나 동등한 성능을 보이며, 특히 매우 낮은 연결에서 두드러진다.
  • 재배선은 시간이 지남에 따라 안정화되며 초기 과도기를 지나 새로운 활성 연결의 안정적인 비율을 유지한다.
  • TIMIT의 LSTM에서 DEEP R은 고정된 임의 연결성과 함께 BPTT보다 모든 테스트 연결성에서 더 나은 성능을 보이며 가지치기/L1 방법에서 관찰되는 불안정한 스파이크를 피한다.
  • 전이 학습 실험은 초기 계층의 불변 특징과 지속적인 후방 탐색을 통해 DEEP R이 전이를 이점으로 활용한다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.