[论文解读] Matterhorn: Efficient Analog Sparse Spiking Transformer Architecture with Masked Time-To-First-Spike Encoding
Matterhorn 提出一种带掩蔽时间到第一脉冲的编码和一个忆阻式就地内存突触单元,以构建能耗更低的脉冲变换器,实现在 SNNs 中的 GLUE 评测的最先进结果,同时显著降低能耗。
Spiking neural networks (SNNs) have emerged as a promising candidate for energy-efficient LLM inference. However, current energy evaluations for SNNs primarily focus on counting accumulate operations, and fail to account for real-world hardware costs such as data movement, which can consume nearly 80% of the total energy. In this paper, we propose Matterhorn, a spiking transformer that integrates a novel masked time-to-first-spike (M-TTFS) encoding method to reduce spike movement and a memristive synapse unit (MSU) to eliminate weight access overhead. M-TTFS employs a masking strategy that reassigns the zero-energy silent state (a spike train of all 0s) to the most frequent membrane potential rather than the lowest. This aligns the coding scheme with the data distribution, minimizing spike movement energy without information loss. We further propose a `dead zone' strategy that maximizes sparsity by mapping all values within a given range to the silent state. At the hardware level, the MSU utilizes compute-in-memory (CIM) technology to perform analog integration directly within memory, effectively removing weight access costs. On the GLUE benchmark, Matterhorn establishes a new state-of-the-art, surpassing existing SNNs by 1.42% in average accuracy while delivering a 2.31 times improvement in energy efficiency.
研究动机与目标
- 在考虑真实硬件成本(超出乘加运算次数 MAC 的计量)下,推动基于脉冲神经网络的高效大模型推理。
- 引入 M-TTFS 编码以在保持信息的同时减少脉冲移动。
- 提出基于就地计算的忆阻突触单元(MSU),消除权重访问开销。
- 展示 SNN 在 GLUE 任务上的最先进准确度并量化能效提升。
提出的方法
- 提出掩蔽的时到第一脉冲编码(M-TTFS),将静默状态重新映射到最常见的膜电位时间 I_max,并在 I_max 周围设置可选的死区。
- 推广带死区半径 k 的 M-TTFS,以最大化稀疏性并降低脉冲移动能量。
- 给出从 QNN 到 SNN 的转换框架,在具备死区感知的量化网络中进行训练并映射到 M-TTFS 的 SNN。
- 基于模拟/类比 CIM 交叉阵列(nT1R)设计忆阻突触单元(MSU),实现就地 VMM 的逐位处理。
- 提供适用于全连接和注意力 Q/K/V 计算的能量分解方程,涵盖脉冲处理、阈值化和内存访问。
- 在 22 nm 工艺和时空数据流架构的混合数字/类比模型上评估能量。
实验结果
研究问题
- RQ1M-TTFS 编码如何影响脉冲率、脉冲移动能量和脉冲变换器的准确性?
- RQ2死区参数 k 如何影响稀疏性、能量以及 GLUE 性能?
- RQ3使用忆阻就地内存突触单元(MSU)是否可以消除权重访问成本并在不牺牲准确性的前提下进一步降低能量?
- RQ4Matterhorn 相较于现有 SNNs 和全精度基线在 GLUE 上的准确性与能效如何?
主要发现
| 模型 | 规模 | QQP | MNLI-m | SST-2 | QNLI | RTE | MRPC | STS-B | 平均值 |
|---|---|---|---|---|---|---|---|---|---|
| 1-bit Matterhorn(k=0) | 13.4M | 89.55 | 81.81 | 92.55 | 89.55 | 72.56 | 88.24 | 86.82 | 85.87 |
| 1-bit Matterhorn(k=1) | 13.4M | 88.32 | 80.70 | 91.63 | 87.74 | 71.84 | 86.27 | 86.00 | 84.64 |
- Matterhorn 在 GLUE 的脉冲变换器中达到最先进的准确率,1 位 Matterhorn(k=0) 平均 85.87%,Matterhorn(k=1) 平均 84.64%。
- M-TTFS 能降低脉冲移动能量和脉冲率,例如 SST-2 在死区 k=1 时实现能量下降且准确性损失极小。
- 在使用死区 k=1 和 MSU 时,单个变换器模块总能量为 6.14 mJ,相比数字基线降低 2.7 倍,且比 Spiking Otters 低 57%。
- Matterhorn(k=1) 在 GLUE 上相较于之前的最先进方法实现 2.31× 的能效提升,且平均准确度比此前领先的 SNN 高出 1.42%。
- 在死区感知的训练循环下,QNN-to-SNN 等价性得以保持,使在作为 Matterhorn 部署时获得相同准确性但能效更高。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。