QUICK REVIEW

[论文解读] MRAM Co-designed Processing-in-Memory CNN Accelerator for Mobile and IoT Applications

Baohua Sun, Daniel Liu|arXiv (Cornell University)|Nov 26, 2018

Advanced Memory and Neural Computing参考文献 5被引用 24

一句话总结

本论文提出了一款基于22nm CMOS工艺的MRAM协同设计的存内计算CNN加速器，通过用自旋转移矩MRAM替代SRAM实现非易失性权重存储，实现了9.9 TOPS/W的能效。该架构可在单枚芯片上同时执行多个AI模型（如图像和语音识别），突破了SRAM在密度和漏电方面的限制。

ABSTRACT

We designed a device for Convolution Neural Network applications with non-volatile MRAM memory and computing-in-memory co-designed architecture. It has been successfully fabricated using 22nm technology node CMOS Si process. More than 40MB MRAM density with 9.9TOPS/W are provided. It enables multiple models within one single chip for mobile and IoT device applications.

研究动机与目标

解决移动和物联网应用中基于SRAM的CNN加速器在功耗和内存密度方面的限制。
实现在芯片上持久、非易失性地存储多个深度学习模型权重，消除对外部存储器的依赖。
通过协同设计STT-MRAM与存内计算架构，实现超高的能效（TOPS/W）。
支持在单枚芯片上同时执行多个AI工作负载（如人脸识别和语音识别）。
展示在CNN加速器中嵌入超过40MB的MRAM密度以实现真实移动和物联网部署的可行性。

提出的方法

采用22nm CMOS工艺协同设计了基于片上STT-MRAM实现非易失性权重存储的CNN矩阵处理引擎（MPE）。
为模型权重使用15位领域专用浮点数（DSFP），为激活值使用9位DSFP，以在精度与面积/功耗之间取得平衡。
实现了一种存内计算架构，其中MAC阵列使用来自SRAM的数据和来自MRAM的权重执行卷积运算。
采用分层内存层次结构：MRAM用于长期模型存储，SRAM用于高带宽的中间激活值存储。
集成控制单元以协调MRAM、SRAM与MAC阵列之间的数据流，并采用时钟偏移电路实现循环数据访问。
利用STT-MRAM的高耐久性与低漏电特性（25°C时为5.5mW，70°C时为7.2mW），相比SRAM（70°C时为136mW）显著降低了待机功耗。

实验结果

研究问题

RQ1STT-MRAM能否在CNN加速器中替代SRAM，在保持高性能的同时提升内存密度并降低漏电功耗？
RQ2与STT-MRAM协同设计的存内计算CNN加速器可实现的能效（TOPS/W）是多少？
RQ3单枚芯片能否利用非易失性MRAM实现模型持久化，同时执行多个AI模型（如图像和语音识别）？
RQ4在高温条件下，MRAM用于权重存储的功耗与真实硅片中的SRAM相比如何？
RQ5所提出的架构能否在无需外部存储器的情况下，支持集成推理或多模态AI工作负载在单枚芯片上的运行？

主要发现

所制造的22nm基于MRAM的CNN加速器实现了9.9 TOPS/W的能效，相比先前基于SRAM的记录（9.3 TOPS/W）提升了6.5%。
MRAM在待机状态下的功耗显著更低（25°C时为5.5mW，70°C时为7.2mW），相比SRAM（分别为34.3mW和136mW），漏电功耗降低高达80%。
芯片实现了超过40MB的嵌入式MRAM密度，相比先前基于SRAM的CNN-DSA（9MB）提升了4.5倍，支持在芯片上存储多个模型。
芯片成功在单枚芯片上同时执行了图像分类与语音识别的推理任务，验证了多模型处理能力。
在12.5MHz频率下，芯片可处理3帧224×224×3的RGB图像，达到35fps，足以满足实时移动和物联网应用需求。
功耗分析显示，MRAM权重存储仅占芯片总功耗的约25%，其余75%由计算与数据移动功耗构成。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。