Skip to main content
QUICK REVIEW

[논문 리뷰] LLaVA-FA: Learning Fourier Approximation for Compressing Large Multimodal Models

Pengcheng Zheng, Chaoning Zhang|arXiv (Cornell University)|2026. 01. 28.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

LLaVA-FA는 푸리에(주파수) 도메인에서 고랭크 근사와 양자화를 공동 적용하여 대형 다중모달 모델의 가중치를 압축하고, PolarQuant와 선택적 대각 보정(ODC)을 사용해 데이터 필요량을 줄이며, 더 적은 학습 매개변수와 낮은 계산으로 강력한 성능을 달성합니다.

ABSTRACT

Large multimodal models (LMMs) have achieved impressive performance on various vision-language tasks, but their substantial computational and memory costs hinder their practical deployment. Existing compression methods often decouple low-rank decomposition and quantization, leading to compounded reconstruction errors, especially in multimodal architectures with cross-modal redundancy. To address this issue, we propose LLaVA-FA, a novel efficient LMM that performs joint low-rank plus quantization approximation in the frequency domain. By leveraging the de-correlation and conjugate symmetry properties of Fourier transform, LLaVA-FA achieves more compact and accurate weight representations. Furthermore, we introduce PolarQuant, a polar-coordinate quantization method tailored for complex matrices, and an optional diagonal calibration (ODC) scheme that eliminates the need for large-scale calibration data. Extensive experimental results demonstrate that our proposed LLaVA-FA outperforms existing efficient multimodal models across multiple benchmarks while maintaining minimal activated parameters and low computational costs, validating its effectiveness as a powerful solution for compressing LMMs.

연구 동기 및 목표

  • 대형 다중모달 모델(LMM)의 공격적이고 데이터 효율적인 압축 필요성에 대한 동기를 부여한다.
  • 메모리와 컴퓨트를 줄이면서 정확성을 유지하기 위한 Fourier-domain에서의 공동 저랭크 plus 양자화 프레임워크를 제안한다.
  • 대규모 보정 데이터 없이도 동작할 수 있도록 복잡도-값 가중치 양자화를 위한 PolarQuant와 선택적 대각 보정(ODC)을 도입한다.
  • 푸리에 기반 압축이 공간 도메인 접근 방식보다 재구성 오차와 매개변수 수가 더 낮다는 것을 보여준다.
  • 다양한 모델 크기에서도 접근 방식이 확장되며 벤치마크에서 효율성을 유지한다.

제안 방법

  • 각 가중치 행렬을 저랭크 복소 부분과 양자화된 잔여(residual)으로 분해(W ≈ eQ + eL1eL2)한다.
  • 실수 가중치를 공액 대칭을 갖는 복소수 주파수 도메인 표현 fW로 매핑하기 위해 2D-Discrete Fourier Transform을 사용하여 매개변수의 절반에 해당하는 정도를 절약한다.
  • Residual에서 eL1 및 eL2를 얻기 위해 FourierSVD를 사용하고, 상위 r 개의 특이값을 유지한다.
  • PolarQuant로 잔여를 양자화하며, 이는 복소 행렬의 진폭과 위상을 극좌표에서 양자화한다(br, bθ 비트).
  • 선택적으로 대각 보정(ODC)을 적용해 행/열 보정 평균으로 목적 함수를 가중화하여 대규모 보정 데이터 없이도 해 Hessian 구조를 근사한다.
  • eL1,eL2 ← ODC 잔여 및 eQ ← PolarQuant(잔여) 단계로 분해를 다듬기 위한 교대 최적화 절차를 제공한다.

실험 결과

연구 질문

  • RQ1주파수 도메인에서의 저랭크+양자화의 결합이 공간 도메인 접근 방식보다 LMM 가중치 매트릭스를 더 효과적으로 압축할 수 있는가?
  • RQ2PolarQuant가 복소 주파수 도메인 가중치를 효과적으로 양자화하면서 교차 모달 정렬 및 정확도를 보존하는가?
  • RQ3선택적 대각 보정(ODC)이 대규모 보정 데이터 없이도 압축 품질을 저하시키지 않고 필요를 제거할 수 있는가?
  • RQ4푸리에-도메인 LMM 압축은 서로 다른 모델 크기와 벤치마크에서 얼마나 잘 확장되는가?

주요 결과

  • LLaVA-FA는 baselines와 비교하여 소량의 학습 가능 매개변수 및 데이터로도 다중모달 벤치마크에서 경쟁적이거나 우수한 성능을 달성한다.
  • PolarQuant 코덱은 복소 행렬의 진폭과 위상을 고려한 양자화를 가능하게 하여 구조를 보존하고 재구성을 향상시킨다.
  • 선택적 대각 보정(ODC)은 대규모 보정 세트가 필요하지 않아도 견고함을 제공한다.
  • 푸리에-도메인 분해는 같은 랭크에서 공간 도메인 절단보다 Frobenius 재구성 오차가 더 작아, 상관 해제와 공액 대칭 덕분이다.
  • LLaVA-FA는 2B, 3B, 7B 백본으로 확장 가능하며, 일관된 압축 이득과 HAL 벤치마크를 포함한 작업에서 견고한 성능을 보인다.
  • 추론 비용(FLOPs 및 지연)이 감소하고, 확장된 실험에서 KV-캐시 사용이 감소하며 첫 토큰 도달 시간이 빨라진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.