QUICK REVIEW

[논문 리뷰] Training End-to-End Analog Neural Networks with Equilibrium Propagation

Jack D. Kendall, Ross D. Pantone|arXiv (Cornell University)|2020. 06. 02.

Advanced Memory and Neural Computing참고 문헌 49인용 수 39

한 줄 요약

이 논문은 가중치가 프로그래머블 저항기로 된 엔드 투 엔드 아날로그 신경망을 Equilibrium Propagation(EqProp)으로 학습하며, 저항기 전압 강하만으로 SGD 호환 그래디언트 업데이트를 시연하고, 100-뉴런 은닉층을 가진 MNIST 결과를 보여준다.

ABSTRACT

We introduce a principled method to train end-to-end analog neural networks by stochastic gradient descent. In these analog neural networks, the weights to be adjusted are implemented by the conductances of programmable resistive devices such as memristors [Chua, 1971], and the nonlinear transfer functions (or `activation functions') are implemented by nonlinear components such as diodes. We show mathematically that a class of analog neural networks (called nonlinear resistive networks) are energy-based models: they possess an energy function as a consequence of Kirchhoff's laws governing electrical circuits. This property enables us to train them using the Equilibrium Propagation framework [Scellier and Bengio, 2017]. Our update rule for each conductance, which is local and relies solely on the voltage drop across the corresponding resistor, is shown to compute the gradient of the loss function. Our numerical simulations, which use the SPICE-based Spectre simulation framework to simulate the dynamics of electrical circuits, demonstrate training on the MNIST classification task, performing comparably or better than equivalent-size software-based neural networks. Our work can guide the development of a new generation of ultra-fast, compact and low-power neural networks supporting on-chip learning.

연구 동기 및 목표

아날로그 저항 소자를 사용하여 학습이 시냅스 위치에서 이루어지는 비-반도체 von Neumann 하드웨어 패러다임을 모티브로 한다.
비선형 저항 네트워크가 EqProp 기반 학습을 가능하게 하는 에너지 기반 모델(EBM)임을 보인다.
저항 값의 감소에 의해 계산될 수 있는 국소적 도전도 업데이트 규칙을 도출한다.
클럭드없이 심층 아날로그 네트워크 구조를 제시하며, 신경망 시냅스로 프로그래밍 가능한 저항과 비선형 뉴런 소자를 제시한다.
SPICE 기반 MNIST 실험을 통한 실현 가능성을 보여주고 소프트웨어 EqProp 모델과 비교한다.

제안 방법

키르히호프 법칙으로부터 도출된 에너지 함수로 비선형 저항 네트워크를 에너지 기반 모델(EBM)로 모델링한다.
정리 정리 1(Theorem 1): 손실의 도함수 w.r.t. 컨덕턴스는 가속된(off-nudge)-nudge 두 단계에서의 전압 강하의 제곱 차의 차이로 beta -> 0 한계에서 추정될 수 있음을 보인다.
Equilibrium Propagation(자유 페이즈와 nudged 페이즈)을 사용하여 로컬 전압 측정만으로 SGD 호환 컨덕턴스 업데이트를 계산한다.
다이오드를 이용해 시그모이드 비선형 전달 함수를 제공하는 뉴런을 구현한다.
저항기 배열을 시냅스로, 양방향 증폭기를 이용해 신호를 전파하는 심층 아날로그 네트워크 아키텍처를 설계한다.
nudged 페이즈에서 출력 노드의 전류원을 통해 손실 기울기를 부호화한다.

실험 결과

연구 질문

RQ1엔드 투 엔드 아날로그 신경망을 컨덕턴스에 대한 로컬 정보만으로 SGD로 학습할 수 있는가?
RQ2비선형 저항 네트워크가 EqProp를 가능하게 하는 에너지 기반 형태를 가지는가?
RQ3이 아날로그 설정에서 EqProp로 도출된 명시적 컨덕턴스 업데이트 규칙은 무엇인가?
RQ4깊은 아날로그 아키텍처가 표준 작업에서 소프트웨어 EqProp 네트워크와 비교해 어떤 성능을 보이는가?
RQ5온칩 학습을 위한 하드웨어 구현(메모리스터, 다이오드, 증폭기)의 실제 고려사항은 무엇인가?

주요 결과

비선형 저항 네트워크는 키르히호프의 법칙에서 유래한 에너지 함수를 갖는 에너지 기반 모델이다.
beta -> 0 극한에서 nudged와 free 페이즈 사이의 전압 강하의 제곱 차로 컨덕턴스에 대한 기울기를 추정할 수 있다.
크로스바 저항 배열과 다이오드 기반 비선형성을 사용하는 심층 아날로그 네트워크 아키텍처를 EqProp로 엔드 투 엔드 학습할 수 있다.
100개의 은닉 뉴런을 가진 MNIST에서 SPICE 기반 시뮬레이션은 10 에폭 후 테스트 오차 3.43%를 달성하며 비교적 로지스틱 회귀 기반 기준선을 능가한다.
동등한 은닉 크기를 가진 PyTorch EqProp 구현과 비교할 때, SPICE 기반 네트워크는 양의 가중치 제약 하에서 경쟁력 있거나 더 나은 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.