[論文レビュー] Single chip photonic deep neural network with accelerated training
in situトレーニングを備えた完全統合型コヒーレント光学DNNを単一チップ上で実証し、母音分類で92.7%のテスト精度を達成、ナノ秒級推論と超低エネルギー消費を実現。
As deep neural networks (DNNs) revolutionize machine learning, energy consumption and throughput are emerging as fundamental limitations of CMOS electronics. This has motivated a search for new hardware architectures optimized for artificial intelligence, such as electronic systolic arrays, memristor crossbar arrays, and optical accelerators. Optical systems can perform linear matrix operations at exceptionally high rate and efficiency, motivating recent demonstrations of low latency linear algebra and optical energy consumption below a photon per multiply-accumulate operation. However, demonstrating systems that co-integrate both linear and nonlinear processing units in a single chip remains a central challenge. Here we introduce such a system in a scalable photonic integrated circuit (PIC), enabled by several key advances: (i) high-bandwidth and low-power programmable nonlinear optical function units (NOFUs); (ii) coherent matrix multiplication units (CMXUs); and (iii) in situ training with optical acceleration. We experimentally demonstrate this fully-integrated coherent optical neural network (FICONN) architecture for a 3-layer DNN comprising 12 NOFUs and three CMXUs operating in the telecom C-band. Using in situ training on a vowel classification task, the FICONN achieves 92.7% accuracy on a test set, which is identical to the accuracy obtained on a digital computer with the same number of weights. This work lends experimental evidence to theoretical proposals for in situ training, unlocking orders of magnitude improvements in the throughput of training data. Moreover, the FICONN opens the path to inference at nanosecond latency and femtojoule per operation energy efficiency.
研究の動機と目的
- 深層学習におけるCMOSのエネルギーとスループットの制限を動機づけ、スケーラブルな光フォトニック解決策を模索する。
- プログラム可能な非線形光学機能ユニットとコヒーレント行列乗算ユニットを備えた、完全統合型のフォトニック回路を提案する。
- 方向微分を用いたハードウェア上での多層フォトニックDNNのin situトレーニングを実証する。
- 光学ドメイン推論は層間の電気的読み出しなしで実行できることを示し、エネルギー/スループットを評価する。
- チップ上でのリアルタイム学習と超低遅延AIハードウェアへの道を提供する。
提案手法
- (i)高帯域幅のプログラム可能な非線形光学機能ユニット(NOFUs);
- (ii)Mach-Zehnder干渉計メッシュを用いて実装されたコヒーレント行列乗算ユニット(CMXUs);
- (iii)in situの、光学的に加速されたトレーニングでハードウェア上の微分を計算する。
- NOFUsとCMXUsを単一のシリコンフォトニック集積回路上に統合し、光学ドメインで多層DNNの演算をコヒーレントに実行する。
- パラメータ空間のランダム方向に沿った方向微分を測定してモデルパラメータを更新するin situトレーニング手法を用い、バックプロパゲーションなしの勾配降下に似た最適化を可能にする。
- 局所発振器と出力場をホモダインさせる統合コヒーレント受信機で最終的な光学DNN出力を読み出す。
- 母音分類で92.7%のテスト精度を達成し、同じ数の重みを持つデジタルモデルと一致、16ビット精度で132個のオンチップ可調パラメータを使用。
実験結果
リサーチクエスチョン
- RQ1完全統合型コヒーロント光ニューラルネットワークは、単一のチップ上で推論とin situトレーニングの両方を実行できますか?
- RQ2商用シリコンフォトニクスプロセスで実装されたNOFUとCMXUを備えたフォトニックDNNの達成可能な精度とエネルギー/スループット指標はいくらですか?
- RQ3方向微分を用いたハードウェア上のin situトレーニングは、多層フォトニックネットワークに対して局所最小値に収束しますか?
- RQ4チップ上のトレーニングは、デジタルトレーニングと比較して最終精度とトレーニングダイナミクスの点でどうですか?
主な発見
| Phase shifter | E_OP | E_total_est | tau_latency | TOPS |
|---|---|---|---|---|
| 熱(本研究) | 9.8 pJ/OP | 11.7 pJ/OP | 435 ps | 0.53 |
| アンダーカット熱 [44] | 35 fJ/OP | 546 fJ/OP | 140 ps | 12 |
| MEMS [45,46] | 1.6 fJ/OP | 513 fJ/OP | 140 ps | 12 |
| MEMS [45,46] | 0.84 fJ/OP | 54 fJ/OP | 1.4 ns | 1240 |
| MEMS [45,46] | 0.79 fJ/OP | 27 fJ/OP | 2.7 ns | 4940 |
| MEMS [45,46] | 0.77 fJ/OP | 14 fJ/OP | 5.4 ns | 19700 |
- telecom C-bandで動作する3層のFICONN、12 NOFUsと3つのCMXUsはin situトレーニングを示し、同じ重みを持つデジタルモデルと同じ92.7%のテスト精度に達する。
- CMXUはMach-Zehnder干渉計メッシュを用いて6×6の単位行列を高忠実度で実装し(誤差補正後の平均0.987 ± 0.007)。
- NOFUはpnドーピング光検出器を介してマイクロリング共振器のデチューニングによるプログラム可能な非線形活性化を実現し、 ~30 fJ/非線形演算 を達成し、オフチップアンプの必要性を排除する。
- in situトレーニングはパラメータ空間のランダム方向に沿った方向微分を計算し、平均的に最急降下方向に従ってウェイトを更新し、局所最小値へ収束する。
- エンドツーエンドのオンチップ推論はエンドツーエンド損失10 dB、各成分の挿入損失が0.1 dB未満で、再増幅なしにすべての層でワンショット推論を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。