QUICK REVIEW

[論文レビュー] Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators

Rebecca Pelke, Joel Klein|arXiv (Cornell University)|Jan 29, 2026

Parallel Computing and Optimization Techniques被引用数 0

ひとこと要約

混合精度量子化と強化学習ドリブンのコンパイラフレームワーク（CIM-AQ）をRRAM CIMアクセラレータ向けに導入し、最小限の精度低下でレイテンシを大幅に削減。TVM上にBreVitasをQATバックエンドとするCIM対応MPQコンパイラを提供。

ABSTRACT

Computing-in-Memory (CIM) accelerators are a promising solution for accelerating Machine Learning (ML) workloads, as they perform Matrix-Vector Multiplications (MVMs) on crossbar arrays directly in memory. Although the bit widths of the crossbar inputs and cells are very limited, most CIM compilers do not support quantization below 8 bit. As a result, a single MVM requires many compute cycles, and weights cannot be efficiently stored in a single crossbar cell. To address this problem, we propose a mixed-precision training and compilation framework for CIM architectures. The biggest challenge is the massive search space, that makes it difficult to find good quantization parameters. This is why we introduce a reinforcement learning-based strategy to find suitable quantization configurations that balance latency and accuracy. In the best case, our approach achieves up to a 2.48x speedup over existing state-of-the-art solutions, with an accuracy loss of only 0.086 %.

研究の動機と目的

RRAM CIMアクセラレータにおけるクロスバーセルビット幅とDAC/ADC制約のため、低精度量子化の必要性を動機づける。
CIMアーキテクチャ向けにレイテンシを削減する混合精度量子化とトレーニングフレームワーク（MPQ）を提案。
CIM-AQと呼ぶ強化学習に基づく自動量子化最適化器を開発し、MPQ探索空間を効率的に探索。
Brevitasで訓練されたMPQモデルをCIMターゲットにマッピングするTVMベースのパイプライン内MPQ対応コンパイラを作成。
ImageNetで制御された精度損失の下、標準CNN/視覚モデルでレイテンシ改善を実証。

提案手法

CIMターゲットに適合するHardware-aware Automated Quantization（HAQ）フレームワークを拡張し、CIM-AQとしてCIMハードウェア上のレイテンシと精度のトレードオフを最適化。
最小精度をacc_t = acc_8b - acc_lossとする新しい報酬関数を定義し、目標未達成の精度をペナルティ化し、レイテンシ削減を優先。
クロスバーパラメータ（M×N、セル精度、DAC精度、書込みおよびMVM時間）を用いてCIMレイテンシをモデル化し、レイヤーごとおよび設定ごとのレイテンシ推定を導出。
BrevitasをQATバックエンドとして使用し、変換器を含むより広いネットワーク層を可能にし、RLベースの最適化を加速。
QAT訓練済みモデルをONNXに変換、QDQスタイル量子化を適用、Graph変換（QNNFuse）を実行し、CPUとCIM間でワークロードを分割するカスタムロウアリングとステージングバッファを備えたTVM上のCIM志向コンパイラを開発。
重み-定常データフローと層ごと軸ラベル付きスケジューリングを組み込み、クロスバー利用を最適化し書込みを最小化。

実験結果

リサーチクエスチョン

RQ1CIMターゲットに対して混合精度量子化をどのように効果的に学習させ、遅延を最小化しつつターゲット精度を維持できるか。
RQ2遅延最適化推論のための最適なCIM固有の制約や戦略（活性化/重みビット幅、セル解像度など）は何か。
RQ3統一されたCIM対応強化学習最適化器（CIM-AQ）は、代表的なネットワークでの速度アップと精度の点で固定8ビットCIM量子化を上回るか。
RQ4BrevitasをCIM特化RL最適化ループに統合してネットワークサポートを広げ、実行時性能を向上させられるか。
RQ5TVMベースのCIMコンパイラがCNNとトランスフォーマー向けにMPQモデルをRRAM CIMハードウェアへマッピングする効果はどうか。
RQ6異なるクロスバー設定（セル解像度、クロスバーサイズ）がMPQ下での遅延-精度トレードオフにどう影響するか。

主な発見

このフレームワークは8ビットCIMベースラインより最大2.48×のスピードアップを達成し、精度損失は0.086%にとどまる。
CIM-AQはトランスフォーマを含む多様なアーキテクチャで混合精度最適化を可能にし、RLトレーニングにおけるGPUベースのHAQ最適化より約8%高速。
活性化ビット幅はCIMで重みよりも積極的に量子化されることが多く、遅延の観点で推進。
MPQ探索空間の制約（入力/出力、重み、あるいは両方の制約）を設けるとS/ALスコアでの速度と精度のトレードオフが改善され、ResNet-18で最良の結果を生む。
ViT-B/32ではMPQアプローチは層ごとに大幅なスピードアップをもたらし、許容できる精度損失を伴い、検証対象モデル全体で少なくとも2.20×のスピードアップを観測。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。