Skip to main content
QUICK REVIEW

[論文レビュー] Frequency-Modulated Visual Restoration for Matryoshka Large Multimodal Models

Qingtao Pan, Zhihao Dou|arXiv (Cornell University)|Mar 11, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

FMVRは圧縮された視覚トークンを低周波と高周波成分に分離して視覚意味を復元するプラグアンドプレイ型の視覚復元戦略であり、最小のFLOPs負荷で正確性を維持しつつMatryoshkaベースのLMM訓練における柔軟なトークン予算を可能にする。

ABSTRACT

Large Multimodal Models (LMMs) struggle to adapt varying computational budgets due to numerous visual tokens. Previous methods attempted to reduce the number of visual tokens before or within LLMs. However, these strategies inevitably result in the loss of visual semantic. To address these issues, we introduce FMVR, a plug-and-play and extremely simple Frequency-Modulated Visual Restoration strategy to boost the reasoning ability of LMMs under visual token reduction. Specifically, FMVR disentangles the visual representation of fewer visual tokens into low- and high-frequency components through AvgPool and MaxPool. The derived frequencies are subsequently modulated using lightweight learnable parameters. The high-frequency from AvgPool acts as a saliency filter to enhance saliency visual semantics, while the low-frequency from MaxPool acts as an anti-saliency filter to strengthen weak visual semantics. It enables the preservation of visual semantics dominated by few visual tokens and the restoration of diluted visual semantics. Additionally, we inject FMVR into Matryoshka Representation Learning to learn coarse-to-fine visual token sets, thus enabling to elastically adjust the number of visual tokens during inference while maintaining comparable performance. Experiments across 10 image-based and 4 video-based bench marks demonstrate that FMVR-LLaVA reduce the FLOPs of LLaVA-1.5-7B by 89%, while maintaining almost 100% of the original accuracy. The code will be open.

研究の動機と目的

  • 大規模マルチモーダルモデルにおける視覚トークン削減時の意味喪失の問題を動機づける。
  • 周波数ベースの分解と変調を通じて希釈された視覚意味をFMVRで復元する。
  • FMVRをMatryoshka表現学習と統合し、異なるトークン予算でのエラスティック推論を支援する。
  • FMVR-LLaVAが画像・動画ベンチマークで精度を維持または向上させつつFLOPsを大幅に削減できることを示す。

提案手法

  • Matryoshkaトークン構築時にAvgPoolおよびMaxPoolを用いて圧縮視覚表現を低周波成分と高周波成分に分離する。
  • 軽量な学習可能変調パラメータを適用して高周波・低周波成分を精緻化する。
  • 周波数復元トークンを統合して、LMM訓練用の強化されたネスト視覚トークンセットを形成する(Matryoshka Representation Learning)。
  • 異なるトークン予算でのエラスティック推論を可能にするため、LLaVAベースのアーキテクチャ上でFMVRを2段階の regimeで訓練する。
  • 効率と精度の向上を検証するため、10の画像ベースおよび4の動画ベースのベンチマークで評価する。
Figure 1 : Our FMVR (b) can restore the visual semantics from compressed tokens, alleviating the loss of visual contents in previous token compression methods (a).
Figure 1 : Our FMVR (b) can restore the visual semantics from compressed tokens, alleviating the loss of visual contents in previous token compression methods (a).

実験結果

リサーチクエスチョン

  • RQ1トークン削減はLMMにおける視覚意味とモデル推論をどのように劣化させるか?
  • RQ2周波数ベースの復元(FMVR)は圧縮トークンから希薄化した視覚意味を回復できるか?
  • RQ3FMVRをMatryoshka Representation Learningと統合することで精度を犠牲にすることなくエラスティックなトークン予算を実現できるか?
  • RQ4画像および動画タスクで、さまざまなトークン予算下でFMVRを用いた場合のFLOPsとレイテンシの効率向上はどの程度か?

主な発見

Methods#Vision TokensVQAv2GQAVisWizSQA IMGVQA TextPOPEMMEMMBench ENMMBench CNMMVetAvg.
LLaVA-v1.5 baseline57678.562.050.066.858.285.91510.764.358.330.563.0
Ours 1 token168.355.249.768.649.281.11284.860.753.426.457.7
Ours 9 tokens974.559.150.769.950.884.11415.064.257.529.061.1
Ours 36 tokens3676.560.952.969.555.385.91452.565.258.332.262.9
Ours 144 tokens14478.662.355.169.755.586.41473.965.857.633.463.8
Ours 576 tokens57679.263.056.568.957.887.51510.165.958.034.364.7
  • FMVR-LLaVAは視覚トークンが大幅に少なくても、画像ベンチマークで競争力のある精度を維持する(例:36–144トークンが576トークンのベースライン近くの性能)。
  • トークンを削減しても、画像ベンチマークでの平均精度の低下を最小に抑えつつ大幅なFLOPs削減を実現できる(例:×8.9程度) 。
  • 10の画像ベンチマークで、FMVR-LLaVAは576トークンで79.2 VQAv2スコアと64.7の平均を達成し、より高トークンのベースラインにほぼ匹敵。
  • 180–720トークン程度でもFMVR-LLaVAは他の視覚トークン削減法を上回る性能を、画像・動画タスクの双方で示す。
  • 動画ベンチマークではFMVR-LLaVA(720トークン)は平均65.9に達し、180トークンでは既存手法の多くを上回る精度と効率を示す。
  • 効率性分析では、トークン復元ステップあたりのFLOPsの増分はごくわずか(約6.4e-5)であり、トークン削減と高速プレフィル時間を実現する。
Figure 2 : Grad-CAM visualization (576 and 36 visual tokens) shows that the reduction of visual tokens leads to a noticeable degradation in visual focus.
Figure 2 : Grad-CAM visualization (576 and 36 visual tokens) shows that the reduction of visual tokens leads to a noticeable degradation in visual focus.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。