[論文レビュー] LLaVA-FA: Learning Fourier Approximation for Compressing Large Multimodal Models
LLaVA-FAは、Fourier(周波数)領域で低秩近似と量子化を共同適用することで大規模マルチモーダルモデルの重みを圧縮し、PolarQuantとオプションの対角校正を用いてデータ量を削減します。より少ない学習可能パラメータと低い計算量で高い性能を達成します。
Large multimodal models (LMMs) have achieved impressive performance on various vision-language tasks, but their substantial computational and memory costs hinder their practical deployment. Existing compression methods often decouple low-rank decomposition and quantization, leading to compounded reconstruction errors, especially in multimodal architectures with cross-modal redundancy. To address this issue, we propose LLaVA-FA, a novel efficient LMM that performs joint low-rank plus quantization approximation in the frequency domain. By leveraging the de-correlation and conjugate symmetry properties of Fourier transform, LLaVA-FA achieves more compact and accurate weight representations. Furthermore, we introduce PolarQuant, a polar-coordinate quantization method tailored for complex matrices, and an optional diagonal calibration (ODC) scheme that eliminates the need for large-scale calibration data. Extensive experimental results demonstrate that our proposed LLaVA-FA outperforms existing efficient multimodal models across multiple benchmarks while maintaining minimal activated parameters and low computational costs, validating its effectiveness as a powerful solution for compressing LMMs.
研究の動機と目的
- 大規模マルチモーダルモデル(LMM)のデータ効率的圧縮の必要性を動機づける。
- 精度を保ちつつメモリと計算を削減するためのFourier領域での共同低秩+量子化フレームワークを提案する。
- 複素値重みの量子化と大規模校正データを回避するための任意の対角校正(ODC)を導入する。
- Fourierベースの圧縮が空間ドメインより再構成誤差とパラメータ数を低減することを示す。
- アプローチがモデルサイズ横断でスケールし、ベンチマークで効率を維持することを示す。
提案手法
- 各重み行列を周波数領域の低秩の複素部と量子化残差に分解する(W ≈ eQ + eL1eL2)。
- 実数重みを複素周波数領域表現fWへマッピングするために2D-Discrete Fourier Transformを用い、共役対称性を保ちつつ約半分のパラメータを節約する。
- 残差からeL1とeL2を得るためにFourierSVDを適用し、トップr特異値を保持する。
- PolarQuantを用いて残差を量子化する。複素行列の振幅と位相を極座標で離散化する(br, bθビット)。
- 任意でDiagonal Calibration(ODC)を適用し、行と列の校正平均を用いてヘッセ関数の構造を近似することで大規模な校正データを必要とせずに目的関数に重みを付ける。
- 代わり順序で反復最適化を行い(eL1,eL2)← OD残差、eQ ← PolarQuant(residual)のステップで分解を洗練する。
実験結果
リサーチクエスチョン
- RQ1周波数領域の共同低秩+量子化は、空間領域のアプローチよりLMMの重み行列をより効果的に圧縮できるか。
- RQ2PolarQuantは複素周波数領域の重みを効果的に量子化し、クロスモーダル整合性と精度を保てるか。
- RQ3任意の diagonal calibration(ODC)は大規模校正データを必要とせずに圧縮品質を犠牲にせずに済むか。
- RQ4Fourier領域のLMM圧縮はモデルサイズの異なる場合とベンチマークでどれほどスケールするか。
主な発見
- LLaVA-FAは、ベースラインと比較して学習可能パラメータとデータのごく一部でマルチモーダルベンチマークで競合または優れた性能を達成する。
- PolarQuantコーデックは複素行列の振幅・位相を考慮した有効な量子化を可能にし、構造を保持して再構成を改善する。
- 任意の対角校正(ODC)は大規模な校正セットを必要とせず頑健性を提供する。
- Fourier領域の分解は、同じ階数で空間領域の切り捨てよりも小さなフロベニウス再構成誤差を示す。これは相関除去と共役対称性による。
- LLaVA-FAは2B、3B、7Bバックボーンへスケールし、タスク間で一貫した圧縮利得と堅牢な性能を維持する。
- 推論コスト(FLOPsと待機時間)は削減され、KVキャッシュ使用量が低下し、スケールされた実験で初期トークンまでの時間が短縮される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。