Skip to main content
QUICK REVIEW

[論文レビュー] A Microarchitecture Implementation Framework for Online Learning with Temporal Neural Networks

Harideep Nair, John Paul Shen|arXiv (Cornell University)|May 27, 2021
Advanced Memory and Neural Computing参考文献 29被引用数 6
ひとこと要約

本論文は、標準CMOSで時系列ニューラルネットワーク(TNNs)を実装するためのマイクロアーキテクチャフレームワークを提案し、マルチシナプスニューロン、マルチニューロンカラム、STDP/R-STDP学習アルゴリズムのハードウェア最適化設計を通じて、オンラインで段階的な学習を効率的に行えるようにする。このフレームワークは、実時間での学習を実現し、面積と消費電力のオーバーヘッドを低く抑え、45nm CMOSにおける1024×16カラムで1.65 mm²、7.96 mW、42.3 nsの遅延を達成。未学習の入力に対しても動的適応が可能であることが実証された。

ABSTRACT

Temporal Neural Networks (TNNs) are spiking neural networks that use time as a resource to represent and process information, similar to the mammalian neocortex. In contrast to compute-intensive deep neural networks that employ separate training and inference phases, TNNs are capable of extremely efficient online incremental/continual learning and are excellent candidates for building edge-native sensory processing units. This work proposes a microarchitecture framework for implementing TNNs using standard CMOS. Gate-level implementations of three key building blocks are presented: 1) multi-synapse neurons, 2) multi-neuron columns, and 3) unsupervised and supervised online learning algorithms based on Spike Timing Dependent Plasticity (STDP). The proposed microarchitecture is embodied in a set of characteristic scaling equations for assessing the gate count, area, delay and power for any TNN design. Post-synthesis results (in 45nm CMOS) for the proposed designs are presented, and their online incremental learning capability is demonstrated.

研究の動機と目的

  • 標準CMOS技術を用いて時系列ニューラルネットワーク(TNNs)の直接的なハードウェア実装を可能にすること。
  • 深層ニューラルネットワーク(DNN)の学習要求とハードウェアのスケーラビリティの間のギャップを埋めるために、脳にインspiredされたエネルギー効率の高い代替手段を提案すること。
  • スケーラブルなマイクロアーキテクチャフレームワークを通じて、エッジデバイスにおけるオンラインで段階的かつ継続的な学習を支援すること。
  • TNNsが最小限のハードウェアオーバーヘッドでリアルタイムのセンサリープロセッシングに適していることを実証すること。

提案手法

  • マルチシナプスニューロン、マルチニューロンカラム、STDP/R-STDP学習アルゴリズムのゲートレベル実装を含む、標準CMOSを用いたTNN用のマイクロアーキテクチャフレームワークを設計。
  • 重みの保存とシナプス処理を統合した新しいシナプス設計を導入し、別個のメモリユニットの必要性を排除。
  • スパイクタイミングと処理ウィンドウを表現するために、3ビットの時間精度を持つユニタリエンコーディングと15サイクルのガンマクロックを採用。
  • 任意のTNN構成における面積、遅延、消費電力の推定に適した特徴的なスケーリング方程式を開発。
  • Design Compilerを用いて45nmプロセスで合成後の評価を実施。周波数100 kHz、電源電圧0.95Vを設定。
  • MNISTのサブセットを用いてオンライン学習の有効性を検証。分類の重心に収束し、未学習のクラスの段階的学習が可能であることを示した。

実験結果

リサーチクエスチョン

  • RQ1TNNsは、体系的なマイクロアーキテクチャフレームワークを用いて、標準CMOSで効率的に実装可能か?
  • RQ2提案されたハードウェア設計は、TNNサイズの変化に伴い、面積、消費電力、遅延の点でどのようにスケーリングするか?
  • RQ3統合されたシナプス設計は、従来の重み保存方式と比較して、ハードウェアオーバーヘッドをどの程度低減できるか?
  • RQ4TNNマイクロアーキテクチャは、未学習の入力に対してリアルタイムでオンラインで段階的な学習をサポートできるか?
  • RQ5無監視STDPに監視学習(R-STDP)を追加した場合、面積および消費電力のパフォーマンスオーバーヘッドはどの程度か?

主な発見

  • 45nm CMOSにおける1024×16 TNNカラムは、面積1.65 mm²、消費電力7.96 mW、クリティカルパス遅延42.3 nsを達成。これは一般的なモバイルSoCの予算の1%未満に収まる。
  • STDP学習ルールは約10,000件のトレーニングサンプルで、MNISTの数字に類似した分類の重心に収束し、高速かつ効果的な学習を示した。
  • R-STDPは監視学習を可能にし、シナプス重みが分類の重心に向かって駆動する。重み行列の結果は、対応する数字と明確に類似していた。
  • フレームワークはオンライン段階的学習をサポートする。初期に0〜8の数字で学習した後、未学習の数字「9」を500サンプルでSTDPを用いて学習可能であった。
  • R-STDPのオーバーヘッドは最小限で、STDPに比べて面積と消費電力がそれぞれ5%増加にとどまり、監視学習を可能にする。
  • シナプス設計は重みの保存と処理を統合しており、別個のメモリユニットを排除することで複雑性を低減し、フレームワーク全体の効率性に寄与している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。