[論文レビュー] CMOS + stochastic nanomagnets: heterogeneous computers for probabilistic inference and learning
要約: 本論文は CMOS + sMTJ ヘテロジーニアスコンピュータを示し、確率的推論とボルツマン学習を実現するために確率的 MTJ p-bit を FPGA に駆動させる。デジタル CMOS p-bit に比べてエネルギーと面積を大幅に低減。
Extending Moore's law by augmenting complementary-metal-oxide semiconductor (CMOS) transistors with emerging nanotechnologies (X) has become increasingly important. One important class of problems involve sampling-based Monte Carlo algorithms used in probabilistic machine learning, optimization, and quantum simulation. Here, we combine stochastic magnetic tunnel junction (sMTJ)-based probabilistic bits (p-bits) with Field Programmable Gate Arrays (FPGA) to create an energy-efficient CMOS + X (X = sMTJ) prototype. This setup shows how asynchronously driven CMOS circuits controlled by sMTJs can perform probabilistic inference and learning by leveraging the algorithmic update-order-invariance of Gibbs sampling. We show how the stochasticity of sMTJs can augment low-quality random number generators (RNG). Detailed transistor-level comparisons reveal that sMTJ-based p-bits can replace up to 10,000 CMOS transistors while dissipating two orders of magnitude less energy. Integrated versions of our approach can advance probabilistic computing involving deep Boltzmann machines and other energy-based learning algorithms with extremely high throughput and energy efficiency.
研究の動機と目的
- Monte Carlo ベースの確率計算を加速するための CMOS + X アーキテクチャの動機付け。
- sMTJ ベース p-bit を FPGA と統合して真の乱数を注入することを実証。
- ヘテロジニアスな p-コンピュータで確率的推論と深いボルツマン学習を評価。
- 7nm CMOS プロセスを用いたデジタル CMOS p-bit と比較してエネルギーとトランジスタ数量をベンチマーク。
- 非同期かつ真の乱数性を用いた確率計算のスケーラビリティ potential を示す。
提案手法
- 低障壁ナノ磁性を持つ sMTJ ベース p-bit を作製・特性評価し、FPGA ベースのデジタル p-bit アレイの非同期クロックとして統合。
- sMTJ の揺らぎを運用アンプリファイヤを介してデジタル p-bit を駆動する電圧へ変換する新しい p-bit 回路を設計。
- FPGA 上で LUT 基の tanh 活性化、PRNG、比較器を用いたデジタル p-bit を実装し、PRNG クロックは sMTJ の乱数で駆動。
- 確率的フル加算機上の確率推論を評価するため、LFSR、sMTJ クロック付き LFSR、Xoshiro RNG を Boltzmann 分布からの KL 発散で比較。
- ヘテロジニアス系を用いて 32 ノードの Chimera Deep Boltzmann Machine を学習させ、デジタル RNG ベースラインと学習性能を比較。

実験結果
リサーチクエスチョン
- RQ1sMTJ ベース p-bit は FPGA ベースのデジタル p-bit を駆動する高品質な乱数を提供し、確率的推論と学習を可能にするか。
- RQ2異なる PRNG からの乱数品質がヘテロジニアス CMOS + sMTJ 系のサンプリング精度と Boltzmann 学習にどのように影響するか。
- RQ3 CMOS + sMTJ p-bit は完全なデジタル CMOS p-bit と比べてエネルギー・面積・スループットにどのような利点があるか。
- RQ4非同期でヘテロジニアスな p-コンピュータを用いた深いボルツマン機械のスケーラブルな学習は可能か。
- RQ5sMTJ のデバイス間ばらつきが推論と学習タスクに与える影響は。
主な発見
- sMTJ ベース p-bit は真の乱数性を提供し、sMTJ のばらつきにもかかわらず高精度な確率的推論と Boltzmann 学習を実現。
- デジタル CMOS p-bit と比較して、sMTJ ベース p-bit は約 10,000 個のトランジスタを置換し、乱数ビットあたりのエネルギーを 2 桁低減(2 fJ)してベンチマーク。
- LFSR ベース RNG は推論と学習で劣る;sMTJ クロック付き LFSR と Xoshiro RNG は FA サンプリングと DBM 学習で Boltzmann 分布により近づく。
- 非同期の sMTJ クロックと FPGA p-bit の組み合わせは高品質なサンプリングと深いボルツマン機械のスケーラブルな学習を可能に。
- ASAP7 7-nm PDK を用いたエネルギー・トランジスタ数のベンチマークは、 CMOS + sMTJ が完全デジタル p-bit に対して大幅なハードウェア効率を示す。
![Fig. 2 : Inference on a probabilistic full adder. (a) Fully-connected full adder network [ 35 ] , where p-bits are clocked by the sMTJs. (b) Truth table of the full adder where Dec. represents the decimal representation of the state of [ $\rm A$ $\rm B$ $\rm C_{\text{in}}$ $\rm S$ $\rm C_{\text{out}](https://ar5iv.labs.arxiv.org/html/2304.05949/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。