[论文解读] Single chip photonic deep neural network with accelerated training
展示了一个在单芯片上完全整合的相干光学 DNN,具备就地训练能力,在元音分类上测试准确率达到 92.7%,实现纳秒级推理和极低能源消耗。
As deep neural networks (DNNs) revolutionize machine learning, energy consumption and throughput are emerging as fundamental limitations of CMOS electronics. This has motivated a search for new hardware architectures optimized for artificial intelligence, such as electronic systolic arrays, memristor crossbar arrays, and optical accelerators. Optical systems can perform linear matrix operations at exceptionally high rate and efficiency, motivating recent demonstrations of low latency linear algebra and optical energy consumption below a photon per multiply-accumulate operation. However, demonstrating systems that co-integrate both linear and nonlinear processing units in a single chip remains a central challenge. Here we introduce such a system in a scalable photonic integrated circuit (PIC), enabled by several key advances: (i) high-bandwidth and low-power programmable nonlinear optical function units (NOFUs); (ii) coherent matrix multiplication units (CMXUs); and (iii) in situ training with optical acceleration. We experimentally demonstrate this fully-integrated coherent optical neural network (FICONN) architecture for a 3-layer DNN comprising 12 NOFUs and three CMXUs operating in the telecom C-band. Using in situ training on a vowel classification task, the FICONN achieves 92.7% accuracy on a test set, which is identical to the accuracy obtained on a digital computer with the same number of weights. This work lends experimental evidence to theoretical proposals for in situ training, unlocking orders of magnitude improvements in the throughput of training data. Moreover, the FICONN opens the path to inference at nanosecond latency and femtojoule per operation energy efficiency.
研究动机与目标
- 推动 CMOS 在深度学习中的能耗与吞吐限制,寻求可扩展的光子解决方案。
- 提出一个具备可编程非线性光学函数单元(NOFUs)和相干矩阵乘法单元(CMXUs)的全集成光子电路。
- 演示在硬件上通过就地训练实现基于方向导数的多层光子DNN训练。
- 显示光学域推理可以在不经过层间电气读出的情况下完成,并评估能量/吞吐。
- 为在芯片上实现实时学习和超低延迟 AI 硬件提供路径。
提出的方法
- 开发三大关键组件:(i) 高带宽可编程非线性光学函数单元(NOFUs);(ii) 通过 Mach-Zehnder 干涉仪网实现的相干矩阵乘法单元(CMXUs);(iii) 就地、光加速在硬件上计算导数的训练。
- 在单一硅光集成电路上整合 NOFUs 与 CMXUs,使多层 DNN 的操作在光域中实现相干运算。
- 采用就地训练方法,通过在参数空间中沿随机方向测量方向导数来更新模型参数,实现类似梯度下降的优化,而无需反向传播。
- 通过集成的相干接收机读取最终光学 DNN 输出,将输出场与本地振荡器进行同相检波。
- 在 16 位精度下,使用 132 个可调参数,达到对元音分类 92.7% 的测试准确率,与具有相同权重数量的数字模型一致。
实验结果
研究问题
- RQ1一个完全集成的相干光学神经网络是否能够在单芯片上同时执行推理和就地训练?
- RQ2在商用硅光子工艺实现的 NOFUs 与 CMXUs 的光子 DNN 能达到什么样的准确率与能量-吞吐指标?
- RQ3在硬件上使用方向导数进行就地训练是否会收敛到多层光子网络的局部极小值?
- RQ4与数字训练相比,芯片上训练在最终准确率和训练动态方面有何差异?
主要发现
- 一个 3 层的 FICONN,配备 12 个 NOFU 与三个 CMXU,在通信C波段下实现就地训练,测试准确率达到 92.7%,与具有相同权重的数字模型完全一致。
- CMXU 使用 Mach-Zehnder 干涉仪网实现了高保真度的 6×6 单元矩阵(误差纠正后平均为 0.987 ± 0.007)。
- NOFU 通过调谐 pn 掺杂的光二极管来偏移微环谐振器,实现可编程非线性激活,每次非线性操作约 ~30 fJ,消除了对片上放大器的需求。
- 就地训练在参数空间沿随机方向计算方向导数,更新权重使其平均沿下降方向收敛,收敛到局部极小值。
- 端到端的片上推理在所有层之间的总体损耗为 10 dB,且各组件的插入损耗低于 0.1 dB,实现对所有层的单次推理,无需重新放大。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。