QUICK REVIEW

[論文レビュー] VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning

Yibo Wang, Yongcheng Jing|arXiv (Cornell University)|Jan 29, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

VTC-R1は事前の推論手順をコンパクトな画像としてレンダリングすることで視覚テキスト圧縮を実現し、トークン数を削減し、エンドツーエンドの待ち時間を短縮した。追加のトレーニングや外部モデルなしで、数学ベンチマーク全体で最大3.4×のトークン圧縮と最大2.7×の速度向上を達成。

ABSTRACT

Long-context reasoning has significantly empowered large language models (LLMs) to tackle complex tasks, yet it introduces severe efficiency bottlenecks due to the computational complexity. Existing efficient approaches often rely on complex additional training or external models for compression, which limits scalability and discards critical fine-grained information. In this paper, we propose VTC-R1, a new efficient reasoning paradigm that integrates vision-text compression into the reasoning process. Instead of processing lengthy textual traces, VTC-R1 renders intermediate reasoning segments into compact images, which are iteratively fed back into vision-language models as "optical memory." We construct a training dataset based on OpenR1-Math-220K achieving 3.4x token compression and fine-tune representative VLMs-Glyph and Qwen3-VL. Extensive experiments on benchmarks such as MATH500, AIME25, AMC23 and GPQA-D demonstrate that VTC-R1 consistently outperforms standard long-context reasoning. Furthermore, our approach significantly improves inference efficiency, achieving 2.7x speedup in end-to-end latency, highlighting its potential as a scalable solution for reasoning-intensive applications. Our code is available at https://github.com/w-yibo/VTC-R1.

研究の動機と目的

LLMおよび視覚言語モデルにおける長文コンテキスト推論の非効率性を動機づけ、解決する。
微細な推論情報を保持するモデルフリーで軽量な解決策を提案する。
視覚-テキスト圧縮を活用してテキスト推論 traces をコンパクトな視覚表現に変換する。
標準的な数学ベンチマークで精度の向上と顕著な待機時間削減を実証する。

提案手法

長文コンテキスト推論を反復セグメント LP1...LPn に分解し、前のセグメント I1...I(n-1) を画像としてレンダリングする。
VLMを質問、事前にレンダリングされた画像、現在の推論セグメントで条件付けし、次の推論トレース LRi を生成する。
LRi を軽量レンダリング演算子 Rθ を用いて画像にレンダリングし、次の反復の前に光学メモリを作成する。
代表的なVLM（Glyph および Qwen3-VL）を OpenR1-Math-Inf 由来の画像–テキスト対訳データセットで微調整し、最大3.4×のトークン圧縮を達成する。
視覚-テキスト圧縮比率 ρ = Lt / Lv を定義。ここで Lt はテキストトークン、Lv は視覚トークンで、ρ ≈ 3–4。
並列生成を可能にする独立したリクエスト状態と動的アクティブセットを用いたバッチ推論適応。

実験結果

リサーチクエスチョン

RQ1視覚テキスト圧縮は、多段階の数学推論を支える十分な推論信号を保持できるのか。
RQ2反復的な画像ベースのメモリアプローチは、精度と待機時間の点で標準的な長文コンテキスト推論と競合するのか、あるいは優れているのか。
RQ3VTC-R1は、ドメイン内の数学データセットを超えた分布外推論ベンチマークに一般化するのか。
RQ4セグメント長と反復回数は精度と待機時間にどのような影響を与えるのか。
RQ5マルチステップ推論下でレンダリング画像は性能維持にどれほど重要なのか。

主な発見

Model	GSM8K ACC	GSM8K TOK	GSM8K LAT	MATH500 ACC	MATH500 TOK	MATH500 LAT	AIME25 ACC (Avg@16)	AIME25 TOK	AIME25 LAT	AMC23 ACC (Avg@16)	AMC23 TOK	AMC23 LAT
Qwen3-VL-8B SFT	88.1	1.79	3.04	85.4	4.17	5.36	32.71	17.46	29.85	75.00	8.20	11.08
VTC-R1 (Glyph)	94.7 (+6.6)	1.09	0.46 (6.6×)	90.0 (+4.6)	3.39	2.49 (2.2×)	30.00 (-2.71)	14.32	12.02 (2.5×)	77.97 (+2.97)	8.18	6.45 (1.7×)
Glyph Base SFT	86.1	2.35	1.38	79.6	5.51	2.77	24.17	19.94	14.48	61.56	12.67	8.55
Glyph SFT	87.1	1.87	0.93	80.4	5.71	3.05	25.62	17.47	11.52	60.94	11.65	6.85
TokenSkip	86.4	2.25	1.32	80.6	6.11	3.05	23.75	17.82	11.85	59.53	12.81	8.41
VTC-R1 (Qwen3-VL-8B)	93.6 (+6.5)	1.09	0.34 (2.7×)	86.0 (+5.6)	4.12	2.19 (1.4×)	26.25 (+0.63)	12.95	6.81 (1.7×)	64.38 (+3.44)	8.81	4.30 (1.6×)

VTC-R1は、GSM8K、MATH500、AIME25、AMC23などの複数の数学ベンチマークおよびGPQA-Diamondのアウトオブディストリビューションで標準的な長文コンテキスト推論よりも一貫して精度を改善する。
Glyph では、VTC-R1 はテキストのみの長文コンテキスト推論と比較してエンドツーエンド待機時間を最大で2.7×短縮し、トークン圧縮を最大3.4×達成。
Qwen3-VL-8B に対しては、VTC-R1 は競争力のあるまたは優れた精度と大幅な待機時間削減を示し、難易度の高いタスクで顕著な向上が見られる。
ベンチマーク全体で本手法は適応的推論特性を示し、問題の難易度に応じて反復回数が変化し、数回の反復で収束する。
アブレーション研究では4Kセグメント長が精度と待機時間の最良のトレードオフを一般に与え、画像入力を削除すると性能が低下することが確認され、レンダリング画像がメモリとしての利点を持つことを裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。