QUICK REVIEW

[논문 리뷰] LLaVA-FA: Learning Fourier Approximation for Compressing Large Multimodal Models

Pengcheng Zheng, Chaoning Zhang|arXiv (Cornell University)|2026. 01. 28.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

LLaVA-FA는 푸리에(주파수) 도메인에서 고랭크 근사와 양자화를 공동 적용하여 대형 다중모달 모델의 가중치를 압축하고, PolarQuant와 선택적 대각 보정(ODC)을 사용해 데이터 필요량을 줄이며, 더 적은 학습 매개변수와 낮은 계산으로 강력한 성능을 달성합니다.

ABSTRACT

Large multimodal models (LMMs) have achieved impressive performance on various vision-language tasks, but their substantial computational and memory costs hinder their practical deployment. Existing compression methods often decouple low-rank decomposition and quantization, leading to compounded reconstruction errors, especially in multimodal architectures with cross-modal redundancy. To address this issue, we propose LLaVA-FA, a novel efficient LMM that performs joint low-rank plus quantization approximation in the frequency domain. By leveraging the de-correlation and conjugate symmetry properties of Fourier transform, LLaVA-FA achieves more compact and accurate weight representations. Furthermore, we introduce PolarQuant, a polar-coordinate quantization method tailored for complex matrices, and an optional diagonal calibration (ODC) scheme that eliminates the need for large-scale calibration data. Extensive experimental results demonstrate that our proposed LLaVA-FA outperforms existing efficient multimodal models across multiple benchmarks while maintaining minimal activated parameters and low computational costs, validating its effectiveness as a powerful solution for compressing LMMs.

연구 동기 및 목표

대형 다중모달 모델(LMM)의 공격적이고 데이터 효율적인 압축 필요성에 대한 동기를 부여한다.
메모리와 컴퓨트를 줄이면서 정확성을 유지하기 위한 Fourier-domain에서의 공동 저랭크 plus 양자화 프레임워크를 제안한다.
대규모 보정 데이터 없이도 동작할 수 있도록 복잡도-값 가중치 양자화를 위한 PolarQuant와 선택적 대각 보정(ODC)을 도입한다.
푸리에 기반 압축이 공간 도메인 접근 방식보다 재구성 오차와 매개변수 수가 더 낮다는 것을 보여준다.
다양한 모델 크기에서도 접근 방식이 확장되며 벤치마크에서 효율성을 유지한다.

제안 방법

각 가중치 행렬을 저랭크 복소 부분과 양자화된 잔여(residual)으로 분해(W ≈ eQ + eL1eL2)한다.
실수 가중치를 공액 대칭을 갖는 복소수 주파수 도메인 표현 fW로 매핑하기 위해 2D-Discrete Fourier Transform을 사용하여 매개변수의 절반에 해당하는 정도를 절약한다.
Residual에서 eL1 및 eL2를 얻기 위해 FourierSVD를 사용하고, 상위 r 개의 특이값을 유지한다.
PolarQuant로 잔여를 양자화하며, 이는 복소 행렬의 진폭과 위상을 극좌표에서 양자화한다(br, bθ 비트).
선택적으로 대각 보정(ODC)을 적용해 행/열 보정 평균으로 목적 함수를 가중화하여 대규모 보정 데이터 없이도 해 Hessian 구조를 근사한다.
eL1,eL2 ← ODC 잔여 및 eQ ← PolarQuant(잔여) 단계로 분해를 다듬기 위한 교대 최적화 절차를 제공한다.

실험 결과

연구 질문

RQ1주파수 도메인에서의 저랭크+양자화의 결합이 공간 도메인 접근 방식보다 LMM 가중치 매트릭스를 더 효과적으로 압축할 수 있는가?
RQ2PolarQuant가 복소 주파수 도메인 가중치를 효과적으로 양자화하면서 교차 모달 정렬 및 정확도를 보존하는가?
RQ3선택적 대각 보정(ODC)이 대규모 보정 데이터 없이도 압축 품질을 저하시키지 않고 필요를 제거할 수 있는가?
RQ4푸리에-도메인 LMM 압축은 서로 다른 모델 크기와 벤치마크에서 얼마나 잘 확장되는가?

주요 결과

LLaVA-FA는 baselines와 비교하여 소량의 학습 가능 매개변수 및 데이터로도 다중모달 벤치마크에서 경쟁적이거나 우수한 성능을 달성한다.
PolarQuant 코덱은 복소 행렬의 진폭과 위상을 고려한 양자화를 가능하게 하여 구조를 보존하고 재구성을 향상시킨다.
선택적 대각 보정(ODC)은 대규모 보정 세트가 필요하지 않아도 견고함을 제공한다.
푸리에-도메인 분해는 같은 랭크에서 공간 도메인 절단보다 Frobenius 재구성 오차가 더 작아, 상관 해제와 공액 대칭 덕분이다.
LLaVA-FA는 2B, 3B, 7B 백본으로 확장 가능하며, 일관된 압축 이득과 HAL 벤치마크를 포함한 작업에서 견고한 성능을 보인다.
추론 비용(FLOPs 및 지연)이 감소하고, 확장된 실험에서 KV-캐시 사용이 감소하며 첫 토큰 도달 시간이 빨라진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.