[论文解读] Tree-based machine learning performed in-memory with memristive analog CAM
本文提出了一种用于大规模随机森林推理的新型内存计算加速器,采用忆阻器模拟内容可寻址存储器(CAM)。通过将决策树映射到模拟CAM阵列并与模拟RAM耦合,该架构通过并行多比特模式匹配实现高速、低功耗的树遍历,相较于最先进的图像分类任务加速器,吞吐量提升1000倍,每决策能耗降低100倍。
Tree-based machine learning techniques, such as Decision Trees and Random Forests, are top performers in several domains as they do well with limited training datasets and offer improved interpretability compared to Deep Neural Networks (DNN). However, while easier to train, they are difficult to optimize for fast inference without accuracy loss in von Neumann architectures due to non-uniform memory access patterns. Recently, we proposed a novel analog, or multi-bit, content addressable memory(CAM) for fast look-up table operations. Here, we propose a design utilizing this as a computational primitive for rapid tree-based inference. Large random forest models are mapped to arrays of analog CAMs coupled to traditional analog random access memory (RAM), and the unique features of the analog CAM enable compression and high performance. An optimized architecture is compared with previously proposed tree-based model accelerators, showing improvements in energy to decision by orders of magnitude for common image classification tasks. The results demonstrate the potential for non-volatile analog CAM hardware in accelerating large tree-based machine learning models.
研究动机与目标
- 解决冯·诺依曼架构在加速大规模基于树的模型(如随机森林)时因非均匀内存访问模式导致的性能与能效低下问题。
- 克服现有基于树的模型加速器的可扩展性限制,后者在决策树深度增加时表现出超线性运行时间增长。
- 利用非易失性、多比特忆阻器模拟CAM的独特能力,实现高吞吐量、低功耗的基于树的模型内存内推理。
- 设计一种优化的软硬件协同框架,将大型随机森林模型高效映射到模拟CAM与模拟RAM阵列上。
- 在真实图像分类工作负载中,相较于现有加速器,显著提升能效与吞吐量。
提出的方法
- 将大型随机森林模型映射到模拟CAM阵列,其中每个决策树节点通过存储在忆阻器中的多比特电导状态实现范围匹配操作。
- 采用1T1R电阻式RAM(RRAM)架构实现模拟CAM,其中较低和较高电导阈值(M1和M2)定义了模式匹配的有效范围。
- 基于后版图仿真,构建模拟CAM电路的紧凑行为模型,捕捉亚阈值、中间和欧姆导电区域,以准确预测匹配线放电电流。
- 将模拟CAM阵列与传统模拟随机存取存储器(RAM)集成,实现多数投票,通过并行投票所有树实现最终类别预测。
- 优化数字到模拟转换器(DAC)与数据线(DL)布线,以最小化功耗与传播延迟,采用包含寄生电阻与电容的Elmore延迟模型。
- 在训练过程中应用模型压缩技术,以减少内存占用量,同时保持精度,从而实现在内存内架构上部署大型模型。
实验结果
研究问题
- RQ1忆阻器模拟CAM能否实现高效、高吞吐量的内存内推理,用于大规模随机森林模型?
- RQ2所提出的基于模拟CAM的加速器在图像分类任务中,其能效与吞吐量相较于现有冯·诺依曼与加速器解决方案表现如何?
- RQ3模型压缩与硬件感知训练在多大程度上可保持精度,同时实现对模拟CAM阵列的部署?
- RQ4在设计用于树遍历的模拟CAM阵列时,关键的架构权衡因素是什么,特别是功耗、面积与延迟方面?
- RQ5模拟CAM的多比特模式匹配能力能否有效表示决策树逻辑,同时保持极低的精度损失?
主要发现
- 所提出的基于模拟CAM的加速器在图像分类任务中,吞吐量相较最先进的加速器提升了1000倍。
- 每决策能耗相比现有加速器降低了100倍,展现出能效的量级提升。
- 模拟CAM架构通过多比特范围匹配实现并行、内存内决策树节点评估,消除了对串行内存访问的需求。
- 后版图仿真验证了紧凑行为模型的准确性,实验数据在16个电导等级下与模型预测高度吻合。
- 即使考虑器件非理想性(如器件失配与固定故障),系统仍保持高精度(≥0.94),且因可靠性问题仅使用每单元128个器件(共256个)。
- 模拟CAM与模拟RAM集成实现多数投票,支持可扩展、低延迟推理,整体架构在实时、能效受限的应用中展现出强大部署潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。