QUICK REVIEW

[论文解读] A Microarchitecture Implementation Framework for Online Learning with Temporal Neural Networks

Harideep Nair, John Paul Shen|arXiv (Cornell University)|May 27, 2021

Advanced Memory and Neural Computing参考文献 29被引用 6

一句话总结

本文提出了一种基于标准CMOS工艺的微架构框架，用于在标准CMOS中实现时间神经网络（TNNs），通过针对多突触神经元、多神经元列以及STDP/R-STDP学习算法的硬件优化设计，实现高效的在线增量学习。该框架在极低面积和功耗开销下实现实时学习，1024×16列在45nm CMOS工艺下实现1.65 mm²、7.96 mW和42.3 ns延迟，支持对未见输入的动态适应。

ABSTRACT

Temporal Neural Networks (TNNs) are spiking neural networks that use time as a resource to represent and process information, similar to the mammalian neocortex. In contrast to compute-intensive deep neural networks that employ separate training and inference phases, TNNs are capable of extremely efficient online incremental/continual learning and are excellent candidates for building edge-native sensory processing units. This work proposes a microarchitecture framework for implementing TNNs using standard CMOS. Gate-level implementations of three key building blocks are presented: 1) multi-synapse neurons, 2) multi-neuron columns, and 3) unsupervised and supervised online learning algorithms based on Spike Timing Dependent Plasticity (STDP). The proposed microarchitecture is embodied in a set of characteristic scaling equations for assessing the gate count, area, delay and power for any TNN design. Post-synthesis results (in 45nm CMOS) for the proposed designs are presented, and their online incremental learning capability is demonstrated.

研究动机与目标

实现基于标准CMOS技术的时间神经网络（TNNs）的直接硬件实现。
通过提出一种受大脑启发的、能效高效的替代方案，解决深度神经网络（DNN）训练需求与硬件可扩展性之间的日益扩大的差距。
通过可扩展的微架构框架，在边缘设备中支持在线、增量和持续学习。
证明TNNs在极低硬件开销下实现对实时传感处理的可行性。

提出的方法

设计一种基于标准CMOS的TNN微架构框架，包含多突触神经元、多神经元列以及STDP/R-STDP学习算法的门级实现。
提出一种新型突触设计，将权重存储与突触处理集成，消除对独立存储单元的需求。
采用三比特时间精度的单极编码和15周期的伽马时钟，表示脉冲到达时间和处理窗口。
推导出用于估算任意TNN配置下面积、延迟和功耗的特征缩放方程。
使用Design Compiler在45nm工艺下进行综合后评估，频率为100 kHz，电源电压为0.95V。
通过MNIST数据集的一个子集验证在线学习能力，展示网络收敛至类别中心并实现对未见类别的增量学习。

实验结果

研究问题

RQ1是否能够通过系统化的微架构框架，在标准CMOS中高效实现TNNs？
RQ2所提出的硬件设计在不同TNN规模下，其面积、功耗和延迟的扩展特性如何？
RQ3与传统权重存储方法相比，集成式突触设计在多大程度上降低了硬件开销？
RQ4TNN微架构是否能够实现实时在线、增量学习未见过的输入？
RQ5在无监督STDP基础上增加有监督学习（R-STDP）带来的面积和功耗开销是多少？

主要发现

在45nm CMOS工艺下，1024×16的TNN列实现1.65 mm²面积、7.96 mW功耗和42.3 ns关键路径延迟，功耗和面积开销均低于典型移动SoC预算的1%。
STDP学习规则在约10,000次训练样本后收敛至类似MNIST数字的类别中心，表明学习速度快且高效。
R-STDP支持有监督学习，可引导突触权重向类别中心靠拢，权重矩阵结果清晰呈现出对应数字的形态。
该框架支持在线增量学习：在对0–8类完成初始训练后，仅用500次样本即可通过无监督STDP学习到未见过的数字'9'。
R-STDP的开销极低——面积和功耗仅比STDP增加5%，同时实现了有监督学习能力。
突触设计将权重存储与处理功能集成，通过消除独立存储单元降低了整体复杂度，显著提升了框架的整体效率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。