[論文レビュー] Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators
混合精度量子化と強化学習ドリブンのコンパイラフレームワーク(CIM-AQ)をRRAM CIMアクセラレータ向けに導入し、最小限の精度低下でレイテンシを大幅に削減。TVM上にBreVitasをQATバックエンドとするCIM対応MPQコンパイラを提供。
Computing-in-Memory (CIM) accelerators are a promising solution for accelerating Machine Learning (ML) workloads, as they perform Matrix-Vector Multiplications (MVMs) on crossbar arrays directly in memory. Although the bit widths of the crossbar inputs and cells are very limited, most CIM compilers do not support quantization below 8 bit. As a result, a single MVM requires many compute cycles, and weights cannot be efficiently stored in a single crossbar cell. To address this problem, we propose a mixed-precision training and compilation framework for CIM architectures. The biggest challenge is the massive search space, that makes it difficult to find good quantization parameters. This is why we introduce a reinforcement learning-based strategy to find suitable quantization configurations that balance latency and accuracy. In the best case, our approach achieves up to a 2.48x speedup over existing state-of-the-art solutions, with an accuracy loss of only 0.086 %.
研究の動機と目的
- RRAM CIMアクセラレータにおけるクロスバーセルビット幅とDAC/ADC制約のため、低精度量子化の必要性を動機づける。
- CIMアーキテクチャ向けにレイテンシを削減する混合精度量子化とトレーニングフレームワーク(MPQ)を提案。
- CIM-AQと呼ぶ強化学習に基づく自動量子化最適化器を開発し、MPQ探索空間を効率的に探索。
- Brevitasで訓練されたMPQモデルをCIMターゲットにマッピングするTVMベースのパイプライン内MPQ対応コンパイラを作成。
- ImageNetで制御された精度損失の下、標準CNN/視覚モデルでレイテンシ改善を実証。
提案手法
- CIMターゲットに適合するHardware-aware Automated Quantization(HAQ)フレームワークを拡張し、CIM-AQとしてCIMハードウェア上のレイテンシと精度のトレードオフを最適化。
- 最小精度をacc_t = acc_8b - acc_lossとする新しい報酬関数を定義し、目標未達成の精度をペナルティ化し、レイテンシ削減を優先。
- クロスバーパラメータ(M×N、セル精度、DAC精度、書込みおよびMVM時間)を用いてCIMレイテンシをモデル化し、レイヤーごとおよび設定ごとのレイテンシ推定を導出。
- BrevitasをQATバックエンドとして使用し、変換器を含むより広いネットワーク層を可能にし、RLベースの最適化を加速。
- QAT訓練済みモデルをONNXに変換、QDQスタイル量子化を適用、Graph変換(QNNFuse)を実行し、CPUとCIM間でワークロードを分割するカスタムロウアリングとステージングバッファを備えたTVM上のCIM志向コンパイラを開発。
- 重み-定常データフローと層ごと軸ラベル付きスケジューリングを組み込み、クロスバー利用を最適化し書込みを最小化。
実験結果
リサーチクエスチョン
- RQ1CIMターゲットに対して混合精度量子化をどのように効果的に学習させ、遅延を最小化しつつターゲット精度を維持できるか。
- RQ2遅延最適化推論のための最適なCIM固有の制約や戦略(活性化/重みビット幅、セル解像度など)は何か。
- RQ3統一されたCIM対応強化学習最適化器(CIM-AQ)は、代表的なネットワークでの速度アップと精度の点で固定8ビットCIM量子化を上回るか。
- RQ4BrevitasをCIM特化RL最適化ループに統合してネットワークサポートを広げ、実行時性能を向上させられるか。
- RQ5TVMベースのCIMコンパイラがCNNとトランスフォーマー向けにMPQモデルをRRAM CIMハードウェアへマッピングする効果はどうか。
- RQ6異なるクロスバー設定(セル解像度、クロスバーサイズ)がMPQ下での遅延-精度トレードオフにどう影響するか。
主な発見
- このフレームワークは8ビットCIMベースラインより最大2.48×のスピードアップを達成し、精度損失は0.086%にとどまる。
- CIM-AQはトランスフォーマを含む多様なアーキテクチャで混合精度最適化を可能にし、RLトレーニングにおけるGPUベースのHAQ最適化より約8%高速。
- 活性化ビット幅はCIMで重みよりも積極的に量子化されることが多く、遅延の観点で推進。
- MPQ探索空間の制約(入力/出力、重み、あるいは両方の制約)を設けるとS/ALスコアでの速度と精度のトレードオフが改善され、ResNet-18で最良の結果を生む。
- ViT-B/32ではMPQアプローチは層ごとに大幅なスピードアップをもたらし、許容できる精度損失を伴い、検証対象モデル全体で少なくとも2.20×のスピードアップを観測。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。