[論文レビュー] Tree-based machine learning performed in-memory with memristive analog CAM
本稿では、メモリスタのアナログコンテンツアドレスラブルメモリ(CAM)を用いた大規模ランダムフォレスト推論のための新規メモリ内計算アクセラレータを提案する。決定木をアナログCAMアレイとアナログRAMにマッピングすることにより、並列なマルチビットパターンマッチングによる高速かつ低消費電力な木の走査が可能となり、画像分類タスクにおいて、最先端のアクセラレータと比較してスループットが1000倍向上し、1回の意思決定あたりの消費電力が100分の1に低下した。
Tree-based machine learning techniques, such as Decision Trees and Random Forests, are top performers in several domains as they do well with limited training datasets and offer improved interpretability compared to Deep Neural Networks (DNN). However, while easier to train, they are difficult to optimize for fast inference without accuracy loss in von Neumann architectures due to non-uniform memory access patterns. Recently, we proposed a novel analog, or multi-bit, content addressable memory(CAM) for fast look-up table operations. Here, we propose a design utilizing this as a computational primitive for rapid tree-based inference. Large random forest models are mapped to arrays of analog CAMs coupled to traditional analog random access memory (RAM), and the unique features of the analog CAM enable compression and high performance. An optimized architecture is compared with previously proposed tree-based model accelerators, showing improvements in energy to decision by orders of magnitude for common image classification tasks. The results demonstrate the potential for non-volatile analog CAM hardware in accelerating large tree-based machine learning models.
研究の動機と目的
- ランダムフォレストのような大規模な木ベースのモデルを加速する際、メモリアクセスパターンの非一様性によって生じるバーナウイのアーキテクチャの性能および消費電力の非効率性を解消すること。
- 既存の木ベースのモデルアクセラレータが、決定木の深さに伴いランタイムが超線形的に増加するというスケーラビリティの限界を克服すること。
- 非揮発性でマルチビットのメモリスタアナログCAMの独自の能力を活用し、木ベースのモデルのための高スループットで低消費電力なメモリ内推論を実現すること。
- 大規模なランダムフォレストモデルをアナログCAMおよびアナログRAMアレイに効率的にマッピングする最適化されたハードウェア・ソフトウェア共同設計フレームワークを設計すること。
- 既存のアクセラレータと比較して、実世界の画像分類ワークロードにおいて、消費電力効率およびスループットの顕著な向上を実証すること。
提案手法
- 各決定木のノードを、メモリスタに保存されたマルチビットコンダクタンス状態を用いた範囲マッチング演算として表現することで、大規模なランダムフォレストモデルをアナログCAMアレイにマッピングする。
- アナログCAMに1T1R抵抗性RAM(RRAM)アーキテクチャを採用し、下限および上限のコンダクタンスしきい値(M1およびM2)が、パターンマッチングの有効範囲を定義する。
- レイアウト後シミュレーションに基づく、アナログCAM回路のコンactな動作モデルを実装し、サブスレッショルド、中間、オーム領域のコンダクタンス状態を正確に予測するためのマッチライン放電電流の予測を可能にする。
- 全木にわたる並列投票による最終的な分類予測を可能にするために、従来のアナログランダムアクセスメモリ(RAM)とアナログCAMアレイを統合する。
- デジタル・アナログコンバータ(DAC)およびデータライン(DL)ルーティングを最適化し、パラサイト抵抗および静電容量を用いたエルモア遅延モデルを用いて、消費電力と伝播遅延を最小化する。
- トレーニング段階でモデル圧縮技術を適用し、メモリフットプリントを削減しながら精度を維持する。これにより、大規模モデルをメモリ内アーキテクチャにデプロイ可能にする。
実験結果
リサーチクエスチョン
- RQ1メモリスタアナログCAMは、大規模なランダムフォレストモデルのための効率的で高スループットなメモリ内推論を可能にするか?
- RQ2本稿で提案するアナログCAMベースのアクセラレータは、画像分類タスクにおけるエネルギー効率およびスループットの観点から、既存のバーナウイおよびアクセラレータベースのソリューションと比較して、どのように性能を発揮するか?
- RQ3モデル圧縮およびハードウェアに配慮したトレーニングを用いることで、精度を保持しつつアナログCAMアレイへのデプロイをどの程度可能にするか?
- RQ4特に消費電力、面積、遅延の観点から、木の走査に適したアナログCAMアレイを設計するにあたり、どのような主要なアーキテクチャ的トレードオフが生じるか?
- RQ5アナログCAMのマルチビットパターンマッチング機能は、最小限の精度損失で決定木論理を効果的に表現できるか?
主な発見
- 提案されたアナログCAMベースのアクセラレータは、画像分類タスクにおいて、最先端のアクセラレータと比較してスループットが1000倍向上した。
- 1回の意思決定あたりの消費電力は、既存のアクセラレータと比較して100分の1に削減され、エネルギー効率に桁違いの改善が見られた。
- アナログCAMアーキテクチャにより、マルチビット範囲マッチングを用いた並列的メモリ内ノード評価が可能となり、逐次的メモリアクセスの必要性が排除された。
- レイアウト後シミュレーションにより、コンパクトな動作モデルの正確性が確認され、16段階のコンダクタンスレベルにおいて、実験データがモデル予測と密接に一致した。
- 非理想要因(デバイスばらつき、スタックアットフォールトなど)を考慮しても、システムは高い精度(≥0.94)を維持した。信頼性の問題のため、1セルあたり256デバイス中128デバイスのみが使用された。
- アナログCAMとアナログRAMを統合した多数決投票機構により、スケーラブルで低遅延な推論が実現され、全体のアーキテクチャは、リアルタイムでエネルギー制限のあるアプリケーションへのデプロイに強く有望であることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。