Skip to main content
QUICK REVIEW

[论文解读] In-network Neural Networks

Giuseppe Siracusano, Roberto Bifulco|arXiv (Cornell University)|Jan 17, 2018
Advanced Memory and Neural Computing参考文献 14被引用 34
一句话总结

该论文提出N2Net,一种利用可编程交换芯片上的现有硬件原原子(如XNOR、POPCNT和位运算)在网内执行二值化神经网络(BNNs)推理的系统。它证明了仅使用14个流水线单元即可在速率为线速(高达每秒9.6亿个神经元)下高效执行BNN,相比传统查表法显著减少内存占用,且仅需极少的芯片面积扩展。

ABSTRACT

We present N2Net, a system that implements binary neural networks using commodity switching chips deployed in network switches and routers. Our system shows that these devices can run simple neural network models, whose input is encoded in the network packets' header, at packet processing speeds (billions of packets per second). Furthermore, our experience highlights that switching chips could support even more complex models, provided that some minor and cheap modifications to the chip's design are applied. We believe N2Net provides an interesting building block for future end-to-end networked systems.

研究动机与目标

  • 探索在交换芯片中直接部署神经网络以实现高吞吐量数据包分类的可行性。
  • 通过用紧凑的计算密集型BNN模型替代大型内存占用型查表,减少对内存的依赖。
  • 利用可编程交换芯片中已有的原原子(如位运算和POPCNT)实现在线速下的BNN推理。
  • 开发一个编译器,可自动生成P4代码以在基于RMT的交换芯片上部署BNN。
  • 证明通过添加极少且低成本的电路(如原生POPCNT),可显著提升BNN的效率与可扩展性。

提出的方法

  • N2Net仅使用位运算(XNOR、AND、移位)和POPCNT实现二值化神经网络(BNN)的前向传播。
  • 采用五级流水线:激活值复制、XNOR与复制、基于树状算法的并行POPCNT计算、符号激活,以及将结果折叠为输出向量。
  • 系统将BNN层映射到P4定义的包头向量(PHV)上的操作,利用RMT芯片的32个流水线单元和512字节的PHV容量。
  • 一个定制编译器可从BNN模型描述(层、神经元)自动生成P4代码,并自动配置流水线以实现推理。
  • 通过复制激活向量,使多个神经元能并行处理,从而在RISC处理器上实现并行性。
  • 假设BNN权重已预先配置并存储在SRAM中,类似于BrainWave的方法,以避免运行时内存访问开销。

实验结果

研究问题

  • RQ1能否仅使用现有硬件原原子在商用可编程交换芯片上高效执行二值化神经网络?
  • RQ2与传统查表法相比,BNN在数据包分类中能将内存使用量减少多少?
  • RQ3支持线速下BNN推理需要多少个流水线单元和PHV资源?
  • RQ4通过添加极少且面积小的硬件扩展(如原生POPCNT),能获得多大的性能提升?
  • RQ5N2Net能否为实际工作负载(如DDoS防护或负载均衡)提供可扩展的、高吞吐量的网内推理?

主要发现

  • N2Net可使用2048位激活向量每秒处理高达9.6亿个神经元,实现在RMT交换芯片上的线速性能。
  • 使用32位激活向量时,仅需14个流水线单元即可并行处理64个神经元,实现每秒9.6亿个两层BNN的处理速度。
  • 每个神经元所需流水线单元数为3+2log₂(N),其中N为激活向量大小,2048位向量最多需25个单元。
  • 若添加原生POPCNT原原子,单元数可从12–25减少至5–10,显著降低硬件成本并使并行神经元容量翻倍。
  • BNN的计算电路所占芯片总面积不足3–5%,是一种成本效益高的增强方式。
  • 该方法可实现紧凑、内存高效的分类器,适用于大规模数据包过滤或应用感知负载均衡等用例。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。