[論文レビュー] NLI:Non-uniform Linear Interpolation Approximation of Nonlinear Operations for Efficient LLMs Inference
NLIはキャリブレーション不要の動的計画法-最適な非均一線形補間を導入し、LLMsの非線形演算を近似。再利用可能なルックアップテーブル方式とプラグアンドプレーのハードウェアエンジンを可能にし、 substantial efficiency gainsを実現します。
Large Language Models (LLMs) have demonstrated remarkable performance across a wide range of tasks, but their deployment is often constrained by substantial memory footprints and computational costs. While prior work has achieved significant progress in compressing and accelerating linear layers, nonlinear layers-such as SiLU, RMSNorm, and Softmax-still heavily depend on high-precision floating-point operations. In this paper, we propose a calibration-free, dynamic-programming-optimal, and hardware-friendly framework called Non-uniform Linear Interpolation (NLI). NLI is capable of efficiently approximating a variety of nonlinear functions, enabling seamless integration into LLMs and other deep neural networks with almost no loss in accuracy. NLI ingeniously recasts cutpoint selection as a dynamic-programming problem, achieving the globally minimal interpolation error in O(MxN2) time via Bellman's optimality principle. Based on the NLI algorithm, we also design and implement a plug-and-play universal nonlinear computation unit. Hardware experiments demonstrate that the NLI Engine achieves more than 4x improvement in computational efficiency compared to the state-of-the-art designs.
研究の動機と目的
- LLMsにおける非線形レイヤー(例:Softmax、RMSNorm、SiLU)の高いFP32コストのため、効率的な非線形演算加速の必要性を動機づける。
- キャリブレーション不要でグローバルに最適な非均一補間フレームワーク(NLI)を提案し、モデル間・レイヤー間で再利用可能なLUTを生み出す。
- スループット・領域・電力を改善するハードウェアフレンドリーなNLIエンジンを二段階アドレス変換で実装する。
- ソフトウェア面での精度保持をLlama、Qwen等のLLMおよび他のDNNで実証し、最先端ユニットに対するハードウェア効率の向上を示す。
提案手法
- カットポイント配置を動的計画法の問題として定式化し、M個のカットポイントでFP16グリッド上の相対補間誤差の平均を最小化することで、キャリブレーション不要のLUTを得る。
- Bellman最適性を用いてDPを解き、グローバル最適性を達成(時間計算量はO(M N^2))。NはFP16点、Mはカットポイント。
- ハードウェアで比較器を259個から10個に減らす二段階アドレス変換を採用し、LUTルックアップと補間を効率化する。
- NLIエンジンを、主要区間選択、マイクロアドレス生成、LUT読出し、補間の4段階パイプラインを備えたプラグアンドプレーの非線形計算ユニットとして設計する。
- ソフトウェア評価:NLIを非線形演算子の代替としてLlamaとQwenに適用してキャリブレーションなしでほとんど精度低下を生じさせず、視覚モデル(ViT、CNNs)での一般性も評価。
- ハードウェア評価:SMIC 28nmでNLIを合成し、NN-LUTおよびRI-LUTと比較して面積・電力・スループット・効率を評価。

実験結果
リサーチクエスチョン
- RQ1キャリブレーション不要でグローバルに最適な非均一補間方式は、多様なモデルに対してLLMsの非線形演算子をほとんど精度低下なしに近似できるか。
- RQ2NLI LUTはLLMsと視覚モデルの間で一般化可能か、既存の非線形計算ユニットと比べてハードウェアの規模はどうか。
- RQ3現実のLLM/NNPワークロードにNLIを導入したときの実用的なソフトウェアとハードウェアの利点(精度、遅延、面積、電力、スループット)は何か。
主な発見
| Model/Unit | Clock Freq. | Area (μm^2) | Power (mW) | Throughput | Efficiency |
|---|---|---|---|---|---|
| NN-LUT | 1 GHz | 23238 | 46 | 1G | 0.94 |
| RI-LUT | 1 GHz | 23647 | 48 | 1G | 0.88 |
| NLI | 1 GHz | 7787 | 34 | 1G | 3.78 |
- NLIは代表的なLLMsおよび視覚モデルにおいて非線形演算子のFP32近似忠実度をほぼ維持し、精度低下はほとんど見られない。
- LlamaおよびQwenにおける非線形演算をNLIに置換してもゼロショットベンチマークで精度低下がなく、Wikitext-2での困難度(perplexity)は競争力を維持。
- ハードウェア評価ではNLIエンジンが最先端の非線形ユニット(NN-LUTおよびRI-LUT)に対して4倍超の効率向上を実現。
- NN-LUTおよびRI-LUTと比べてNLIは面積を約68–69%削減しつつ、1 GHzでほぼ同等のスループットを提供し、電力消費を抑制。
- 二段アドレス変換設計により必要な比較器を259個から10個に削減し、コンパクトで高速、パイプライン化された非線形ユニットを実現。
- DPベースのLUT構築は11個のマクロエンドポイント(合計259のカットポイントを含む)を用い、FP16入力に対して worst-case error が1.2e-3未満のグローバルに近似最適な補間を生む。
![Figure 2: Approximation quality of the SiLU activation over the range $[-150,150]$ , which covers $\geq$ 99.9% of activations under our measurement protocol (see Figure. 1 (a) and Appendix. A.4 ). Panel (a) and Panel (b) show the result of NN-LUT, and panel (c) shows our NLI framework. For each meth](https://ar5iv.labs.arxiv.org/html/2602.02988/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。