Skip to main content
QUICK REVIEW

[論文レビュー] ZeroSense:How Vision matters in Long Context Compression

Yonghan Gao, Zehong Chen|arXiv (Cornell University)|Mar 12, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

この論文は、MLLMsにおける視覚-テキスト圧縮品質を言語 priors から切り離す評価フレームワークと ZeroSense ベンチマークを導入し、視覚-テキスト圧縮品質が下流タスクの精度と乖離する可能性を示した。

ABSTRACT

Recent visual-text compression (VTC) methods, typified by DeepSeek-OCR, report impressive high token compression ratios for long-context modeling tasks by leveraging text-to-image rendering. However, existing evaluation protocols heavily rely on downstream task performance. Such evaluation metrics fail to accurately measure text preservation due to the strong inherent linguistic priors of Multimodal Large Language Models (MLLMs). In this work, we introduce a new evaluation framework that decouples MLLMs' capabilities to faithfully assess VTC quality. Within this framework, we further introduce the ZeroSense Benchmark to ensure low semantic correlation of testing samples. By eliminating contextual dependencies, our benchmark guarantees that the evaluation results are purely reflective of VTC quality, unaffected by the semantic inference capabilities of downstream models. Extensive experiments across multiple datasets demonstrate that VTC quality and downstream task accuracy diverge significantly, highlighting the necessity of our decoupled evaluation framework.

研究の動機と目的

  • 視覚-テキスト圧縮(VTC)の評価を下流の言語 priors から独立させる動機付け。
  • VTC におけるテキスト保持を測定する形式的でモデルに依存しないフレームワークを定義する。
  • ZeroSense ベンチマークを導入し unbiased な評価のための意味的空虚地を作成する。
  • データセット間で VTC のテキスト保持と下流タスク性能のギャップを定量化する。

提案手法

  • 圧縮比 rho(theta) と目的関数 F(O|I, V_theta) を用いて VTC 評価を形式化する。
  • prior 推論、生OCR、保持テキストを分離するデカップル OCR フレームワークを提案する(式 5)。
  • F(C|I,V_theta) と OCR_raw から導出されるテキスト保持指標 K_quality を導入する。
  • セマンティック相関を排除する ZeroSense ベンチマークを構築する(式 7)。
  • ZeroSense と参照サンプルを用いて OCR_raw および F_prior を推定する校正・ベースライン戦略を提供する。

実験結果

リサーチクエスチョン

  • RQ1視覚-テキスト圧縮はセマンティック priors に依らずテキストをどれだけ保持できるか。
  • RQ2下流タスクは VTC の品質とセマンティック推論能力をどの程度反映するか。
  • RQ3デカップル評価で複数データセット間で VTC のテキスト保持能力を定量化できるか。
  • RQ4圧縮比の影響が生OCR能力とpriorガイダンスに与える影響はどの程度か。

主な発見

  • VTC の品質と下流タスクの精度はデータセットと圧縮比を超えて大きく乖離する。
  • Omni では、デカップルフレームワークが高いテキスト保持を示す(例:7.5×で 97.1%)、エンドツーエンド精度は 89.2% である。Fox では高圧縮時にデカップル指標のギャップが大きい。
  • F_prior は圧縮とともに増大する(Fox:7.5×で 23.8%、17.5×で 67%、Omni:31.7%–45.3%)ため、視覚品質が劣化するにつれて意味的 priors への依存が高まる。
  • OCR_raw は圧縮に伴って低下する(Omni:39.5%→17.4%、Fox:76.1%→46% を 7.5×→17.5×で)。
  • ZeroSense は挿入トークンの予測性が極めて低いセマンティック真空を生み出し、視覚評価を孤立させることを支持する(確率 10^-6 〜 10^-7)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。