Skip to main content
QUICK REVIEW

[论文解读] SPADE: A SIMD Posit-enabled compute engine for Accelerating DNN Efficiency

Sonu Kumar, Lavanya Vinnakota|arXiv (Cornell University)|Jan 24, 2026
Numerical Methods and Algorithms被引用 0
一句话总结

SPADE 提出一个 regime-aware SIMD Posit MAC,在统一的数据通路中支持 Posit(8,0)、Posit(16,1) 和 Posit(32,2),实现多精度高效,具备强大的 FPGA/ASIC 结果以及具有竞争力的 DNN 推理精度。

ABSTRACT

The growing demand for edge-AI systems requires arithmetic units that balance numerical precision, energy efficiency, and compact hardware while supporting diverse formats. Posit arithmetic offers advantages over floating- and fixed-point representations through its tapered precision, wide dynamic range, and improved numerical robustness. This work presents SPADE, a unified multi-precision SIMD Posit-based multiplyaccumulate (MAC) architecture supporting Posit (8,0), Posit (16,1), and Posit (32,2) within a single framework. Unlike prior single-precision or floating/fixed-point SIMD MACs, SPADE introduces a regime-aware, lane-fused SIMD Posit datapath that hierarchically reuses Posit-specific submodules (LOD, complementor, shifter, and multiplier) across 8/16/32-bit precisions without datapath replication. FPGA implementation on a Xilinx Virtex-7 shows 45.13% LUT and 80% slice reduction for Posit (8,0), and up to 28.44% and 17.47% improvement for Posit (16,1) and Posit (32,2) over prior work, with only 6.9% LUT and 14.9% register overhead for multi-precision support. ASIC results across TSMC nodes achieve 1.38 GHz at 6.1 mW (28 nm). Evaluation on MNIST, CIFAR-10/100, and alphabet datasets confirms competitive inference accuracy.

研究动机与目标

  • 为边缘智能提出对精确且节能算术单元的需求,能够处理多样的数值格式。
  • 提出一个统一的 SIMD Posit MAC,在 Posit(8,0)、Posit(16,1)、Posit(32,2) 之间无需数据通路重复即可扩展。
  • 开发一种 regime-aware 路道融合与共享子模块设计,以实现高效的多精度执行。
  • 通过 RTL、FPGA 原型和 ASIC 合成结果,展示硬件可行性和 DNN 精度。

提出的方法

  • 引入五级 Posit MAC 流水线(解包、尾数乘法、基于 quire 的累加、重构/归一化、舍入/打包)。
  • 在 8/16/32 位模式下共享四个精度扩展的 SIMD 子模块(Complementor、LOD、Shifter、Multiplier)。
  • 使用 Leading-One Detector 进行 regime 解码,以处理可变 Posit regime。
  • 在 Posit-8 模式下实现 4× 并行 MAC,在 Posit-16 模式下实现 2×,以及统一的 Posit-32 路径,最小化控制开销。
  • 对照 SoftPosit 验证 Posit(8,0)、Posit(16,1)、Posit(32,2) 的正确性,并评估 FPGA/ASIC 性能和面积。
Figure 1: Proposed regime-aware SIMD Posit-8/16/32 MAC datapath illustrating hierarchical lane fusion and shared Posit-specific submodules.
Figure 1: Proposed regime-aware SIMD Posit-8/16/32 MAC datapath illustrating hierarchical lane fusion and shared Posit-specific submodules.

实验结果

研究问题

  • RQ1如何在 SIMD 流水线中高效融合 Posit 算术,以在不复制数据通路的情况下支持多种精度?
  • RQ2在 8/16/32 位格式下,共享 POSIT MAC 时,进行 regime 解码、归一化和进位传播的关键架构策略是什么?
  • RQ3在边缘平台上实现精度自适应的 DNN 推理时,硬件效率与精度之间的权衡是什么?

主要发现

  • 在 FPGA 上的 Posit-8 MAC 相比前代设计实现了最高 45.13% 的 LUT 降幅和 80% 的 slice 降幅。
  • Posit-16 和 Posit-32 MAC 实现了 28.44% 和 17.47% 的 LUT 降幅,并显著降低寄存器使用。
  • 多精度 SIMD MAC 仅增加 6.9% 的 LUT 和 14.9% 的寄存器开销,即实现每个时钟周期 1× Posit-32、2× Posit-16 或 4× Posit-8 操作。
  • 在 28 nm ASIC 下:频率 1.38 GHz,功耗 6.1 mW,面积 0.025 mm^2。
  • 对 MNIST(LeNet-5)、CIFAR-10/100(AlexNet/VGG-16)、字母表数据集的推理实验显示,与浮点基线保持等精度。
  • SPADE 在 Posit-8 模式下的有效 MAC 提高可达同类 Posit-32 设计的 4×。
Figure 3: Detailed micro-architecture for SIMD Posit compute engine based systolic array architecture, Cheshire interface (CVA6) [ 12 ] , control unit and memory banks.
Figure 3: Detailed micro-architecture for SIMD Posit compute engine based systolic array architecture, Cheshire interface (CVA6) [ 12 ] , control unit and memory banks.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。