Skip to main content
QUICK REVIEW

[논문 리뷰] ZeroSense:How Vision matters in Long Context Compression

Yonghan Gao, Zehong Chen|arXiv (Cornell University)|2026. 03. 12.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

이 논문은 시각-텍스트 압축 품질을 MLLMs의 언어 priors와 분리하는 평가 프레임워크와 ZeroSense Benchmark를 도입하여, 시각-텍스트 압축 품질이 다운스트림 작업 정확도와 다르게 나타날 수 있음을 밝힌다.

ABSTRACT

Recent visual-text compression (VTC) methods, typified by DeepSeek-OCR, report impressive high token compression ratios for long-context modeling tasks by leveraging text-to-image rendering. However, existing evaluation protocols heavily rely on downstream task performance. Such evaluation metrics fail to accurately measure text preservation due to the strong inherent linguistic priors of Multimodal Large Language Models (MLLMs). In this work, we introduce a new evaluation framework that decouples MLLMs' capabilities to faithfully assess VTC quality. Within this framework, we further introduce the ZeroSense Benchmark to ensure low semantic correlation of testing samples. By eliminating contextual dependencies, our benchmark guarantees that the evaluation results are purely reflective of VTC quality, unaffected by the semantic inference capabilities of downstream models. Extensive experiments across multiple datasets demonstrate that VTC quality and downstream task accuracy diverge significantly, highlighting the necessity of our decoupled evaluation framework.

연구 동기 및 목표

  • 시각-텍스트 압축(VTC)을 다운스트림 언어 priors와 무관하게 평가하자는 동기를 부여한다.
  • VTC 하에서 텍스트 보존을 측정하는 형식적이고 모델에 독립적인 프레임워크를 정의한다.
  • 공정한 평가를 위한 의미적 공백을 만들기 위해 ZeroSense Benchmark를 도입한다.
  • 데이터셋 간 VTC 텍스트 보존과 다운스트림 작업 성능 간의 격차를 정량화한다.

제안 방법

  • 압축 비율 rho(theta)와 목적 함수 F(O|I, V_theta)로 VTC 평가를 형식화한다.
  • Prior 추론, 원시 OCR, 보존된 텍스트를 분리하는 decoupled OCR 프레임워크를 제안한다(식(5)).
  • F(C|I,V_theta) 및 OCR_raw으로부터 도출된 텍스트 보존 지표 K_quality를 도입한다.
  • 의미 상관관계를 제거하기 위해 ZeroSense Benchmark를 구성한다(식(7)).
  • ZeroSense 및 기준 샘플을 이용해 OCR_raw 및 F_prior를 추정하는 보정 및 기준선 전략을 제공한다.

실험 결과

연구 질문

  • RQ1시각-텍스트 압축이 의미 priors와 무관하게 텍스트를 얼마나 잘 보존하는가?
  • RQ2다운스트림 작업은 VTC 품질과 의미 추론 능력 중 어떤 쪽을 더 반영하는가?
  • RQ3독립 평가를 통해 데이터셋 간 VTC 방식의 텍스트 보존 능력을 quantify할 수 있는가?
  • RQ4압축 비율이 원시 OCR 능력 및 priors 가이드에 미치는 영향은 무엇인가?

주요 결과

  • VTC 품질과 다운스트림 작업 정확도는 데이터셋과 압축 비율에 따라 크게 다르게 발현된다.
  • Omni에서 decoupled 프레임워크는 높은 텍스트 보존을 보이며(예: 7.5×에서 97.1%), 최종 엔드투엔드 정확도는 89.2%이다; Fox의 경우 decoupled 지표가 높은 압축에서 더 큰 차이를 보인다.
  • F_prior는 압축이 커질수록 증가한다( Fox에서 7.5×에 23.8%에서 17.5×에 67%; Omni에서 31.7%–45.3%), 시각 품질의 저하가 의미 priors에 대한 의존성을 높임을 시사한다.
  • OCR_raw는 압축과 함께 감소한다(Omni: 39.5%→17.4%, Fox: 76.1%→46% 7.5×에서 17.5×로).
  • ZeroSense는 삽입된 토큰의 예측 가능도가 극히 낮은 의미적 진공 상태를 만들어 시각 평가를 독립적으로 지원한다(확률 10^-6 ~ 10^-7).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.