Skip to main content
QUICK REVIEW

[논문 리뷰] Whetstone: A Method for Training Deep Artificial Neural Networks for Binary Communication

William Severa, Craig M. Vineyard|arXiv (Cornell University)|2018. 10. 26.
Advanced Memory and Neural Computing참고 문헌 33인용 수 25
한 줄 요약

Whetstone는 정확도를 훼손하지 않으면서 깊은 신경망이 이진 스파ike 유사 통신을 사용할 수 있도록 해주는 새로운 훈련 방법이다. 맞춤형 역전파 수정을 통해 반복적으로 활성화를 날카럽게 다듬음으로써, 저전력 뉴로모픽 하드웨어와 호환되는 모델을 생성하며, 전체 정밀도 네트워크 수준의 성능을 유지한다.

ABSTRACT

This paper presents a new technique for training networks for low-precision communication. Targeting minimal communication between nodes not only enables the use of emerging spiking neuromorphic platforms, but may additionally streamline processing conventionally. Low-power and embedded neuromorphic processors potentially offer dramatic performance-per-Watt improvements over traditional von Neumann processors, however programming these brain-inspired platforms generally requires platform-specific expertise which limits their applicability. To date, the majority of artificial neural networks have not operated using discrete spike-like communication. We present a method for training deep spiking neural networks using an iterative modification of the backpropagation optimization algorithm. This method, which we call Whetstone, effectively and reliably configures a network for a spiking hardware target with little, if any, loss in performance. Whetstone networks use single time step binary communication and do not require a rate code or other spike-based coding scheme, thus producing networks comparable in timing and size to conventional ANNs, albeit with binarized communication. We demonstrate Whetstone on a number of image classification networks, describing how the sharpening process interacts with different training optimizers and changes the distribution of activity within the network. We further note that Whetstone is compatible with several non-classification neural network applications, such as autoencoders and semantic segmentation. Whetstone is widely extendable and currently implemented using custom activation functions within the Keras wrapper to the popular TensorFlow machine learning framework.

연구 동기 및 목표

  • 딥 뉴럴 네트워크를 이진 스파이크 유사 통신 방식으로 훈련시켜 뉴로모픽 하드웨어에 효율적으로 구현할 수 있도록 하는 방법을 개발하는 것.
  • 성능 저하 없이 딥 러닝 시스템의 통신 및 계산 비용을 줄이는 것.
  • 기존의 딥 러닝 프레임워크와 스파iking 신경망 하드웨어 간 격차를 메우기 위해 Keras와 Tensorflow와의 호환성을 유지하는 것.
  • 표준 딥 러닝 워크플로우를 사용하여 임베디드 및 자원 제한된 플랫폼에서 저정밀도, 저전력 추론을 가능하게 하는 것.
  • 사용자 간섭 최소화로 기존 훈련된 ANN을 뉴로모픽 가속기용 네트워크로 쉽게 변환할 수 있는 즉시 사용 가능한 솔루션을 제공하는 것.

제안 방법

  • Whetstone는 각 레이어의 활성화 함수를 이진 임계치 쪽으로 반복적으로 날카롭게 다듬는 수정된 역전파 알고리즘을 사용한다.
  • 각 에포크당 활성화 날카움 속도를 제어하기 위해 '날카움' 및 '대기' 상태를 갖는 상태 기반 훈련 루프를 적용한다.
  • 날카움 처리는 배치 단위로 적용되어 점진적이고 안정적인 수렴을 가능하게 하며, 각 레이어당 각 에포크당 사용자가 정의한 날카움 비율(≤1.0)을 사용한다.
  • 표준 ReLU 또는 시그모이드 활성화를 대체하기 위해 파라미터화된 스파이크 버전을 지원하는 맞춤형 Keras 호환 레이어를 도입하여 이진 통신을 가능하게 한다.
  • 훈련 파이프라인에 날카움 콜백을 통합하여 날카움 스케줄링을 동적 또는 수동으로 제어할 수 있도록 한다.
  • 최종 네트워크 출력은 뉴로모픽 하드웨어 또는 호스트 측 추론에 적합한 비학습형 소프트맥스 레이어 또는 워너-테이크즈올 데코딩 방식으로 인코딩된다.

실험 결과

연구 질문

  • RQ1딥 뉴럴 네트워크는 분류 정확도를 유지하면서도 이진 스파이크 유사 통신을 사용할 수 있는가?
  • RQ2반복적인 활성화 날카움 처리가 깊은 네트워크의 훈련 동역학과 수렴에 어떤 영향을 미치는가?
  • RQ3Whetstone가 다양한 네트워크 아키텍처와 최적화 기법에 적용되었을 때 성능를 얼마나 잘 유지할 수 있는가?
  • RQ4Whetstone는 플랫폼 전용 전문 지식 없이도 기존의 딥 러닝 워크플로우에 원활하게 통합될 수 있는가?
  • RQ5날카움 비율과 훈련 모드(균일 대비 하향식)가 네트워크 성능 및 수렴에 어떤 영향을 미치는가?

주요 결과

  • Whetstone는 전체 정밀도 모델과 비교해 성능 손실가능성 최소화로 단일 타임스텝 이진 통신을 가능하게 하여 딥 뉴럴 네트워크에서 사용할 수 있다.
  • 이 방법은 표준 Keras 및 TensorFlow 워크플로우와 호환되어 사용자가 익숙한 도구와 하이퍼파라미터로 모델을 훈련시킬 수 있다.
  • 다양한 최적화 기법은 날카움 프로세스와 상호작용 방식이 다르게 나타나 네트워크 내 활동 분포에 영향을 미친다.
  • 날카움 프로세스는 MNIST, 패션-MNIST, CIFAR, COCO 등 여러 데이터셋에서 강건하게 작동하여 다양한 이미지 분류 작업에 일반화됨을 입증한다.
  • Whetstone는 분류 작업 외에도 오토인코더 및 세그멘테이션과 같은 비분류 작업과도 호환되어 분류를 넘어서 광범위한 적용 가능성을 보여준다.
  • 직접 리액티브-인티그레이트-앤드-파이어 모델로 변환 가능하여 뉴로모픽 하드웨어에 대한 직접적인 배포를 지원하며, 저전력 추론을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.