Skip to main content
QUICK REVIEW

[論文レビュー] Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators

Rebecca Pelke, Joel Klein|arXiv (Cornell University)|Jan 29, 2026
Parallel Computing and Optimization Techniques被引用数 0
ひとこと要約

混合精度量子化と強化学習ドリブンのコンパイラフレームワーク(CIM-AQ)をRRAM CIMアクセラレータ向けに導入し、最小限の精度低下でレイテンシを大幅に削減。TVM上にBreVitasをQATバックエンドとするCIM対応MPQコンパイラを提供。

ABSTRACT

Computing-in-Memory (CIM) accelerators are a promising solution for accelerating Machine Learning (ML) workloads, as they perform Matrix-Vector Multiplications (MVMs) on crossbar arrays directly in memory. Although the bit widths of the crossbar inputs and cells are very limited, most CIM compilers do not support quantization below 8 bit. As a result, a single MVM requires many compute cycles, and weights cannot be efficiently stored in a single crossbar cell. To address this problem, we propose a mixed-precision training and compilation framework for CIM architectures. The biggest challenge is the massive search space, that makes it difficult to find good quantization parameters. This is why we introduce a reinforcement learning-based strategy to find suitable quantization configurations that balance latency and accuracy. In the best case, our approach achieves up to a 2.48x speedup over existing state-of-the-art solutions, with an accuracy loss of only 0.086 %.

研究の動機と目的

  • RRAM CIMアクセラレータにおけるクロスバーセルビット幅とDAC/ADC制約のため、低精度量子化の必要性を動機づける。
  • CIMアーキテクチャ向けにレイテンシを削減する混合精度量子化とトレーニングフレームワーク(MPQ)を提案。
  • CIM-AQと呼ぶ強化学習に基づく自動量子化最適化器を開発し、MPQ探索空間を効率的に探索。
  • Brevitasで訓練されたMPQモデルをCIMターゲットにマッピングするTVMベースのパイプライン内MPQ対応コンパイラを作成。
  • ImageNetで制御された精度損失の下、標準CNN/視覚モデルでレイテンシ改善を実証。

提案手法

  • CIMターゲットに適合するHardware-aware Automated Quantization(HAQ)フレームワークを拡張し、CIM-AQとしてCIMハードウェア上のレイテンシと精度のトレードオフを最適化。
  • 最小精度をacc_t = acc_8b - acc_lossとする新しい報酬関数を定義し、目標未達成の精度をペナルティ化し、レイテンシ削減を優先。
  • クロスバーパラメータ(M×N、セル精度、DAC精度、書込みおよびMVM時間)を用いてCIMレイテンシをモデル化し、レイヤーごとおよび設定ごとのレイテンシ推定を導出。
  • BrevitasをQATバックエンドとして使用し、変換器を含むより広いネットワーク層を可能にし、RLベースの最適化を加速。
  • QAT訓練済みモデルをONNXに変換、QDQスタイル量子化を適用、Graph変換(QNNFuse)を実行し、CPUとCIM間でワークロードを分割するカスタムロウアリングとステージングバッファを備えたTVM上のCIM志向コンパイラを開発。
  • 重み-定常データフローと層ごと軸ラベル付きスケジューリングを組み込み、クロスバー利用を最適化し書込みを最小化。

実験結果

リサーチクエスチョン

  • RQ1CIMターゲットに対して混合精度量子化をどのように効果的に学習させ、遅延を最小化しつつターゲット精度を維持できるか。
  • RQ2遅延最適化推論のための最適なCIM固有の制約や戦略(活性化/重みビット幅、セル解像度など)は何か。
  • RQ3統一されたCIM対応強化学習最適化器(CIM-AQ)は、代表的なネットワークでの速度アップと精度の点で固定8ビットCIM量子化を上回るか。
  • RQ4BrevitasをCIM特化RL最適化ループに統合してネットワークサポートを広げ、実行時性能を向上させられるか。
  • RQ5TVMベースのCIMコンパイラがCNNとトランスフォーマー向けにMPQモデルをRRAM CIMハードウェアへマッピングする効果はどうか。
  • RQ6異なるクロスバー設定(セル解像度、クロスバーサイズ)がMPQ下での遅延-精度トレードオフにどう影響するか。

主な発見

  • このフレームワークは8ビットCIMベースラインより最大2.48×のスピードアップを達成し、精度損失は0.086%にとどまる。
  • CIM-AQはトランスフォーマを含む多様なアーキテクチャで混合精度最適化を可能にし、RLトレーニングにおけるGPUベースのHAQ最適化より約8%高速。
  • 活性化ビット幅はCIMで重みよりも積極的に量子化されることが多く、遅延の観点で推進。
  • MPQ探索空間の制約(入力/出力、重み、あるいは両方の制約)を設けるとS/ALスコアでの速度と精度のトレードオフが改善され、ResNet-18で最良の結果を生む。
  • ViT-B/32ではMPQアプローチは層ごとに大幅なスピードアップをもたらし、許容できる精度損失を伴い、検証対象モデル全体で少なくとも2.20×のスピードアップを観測。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。