QUICK REVIEW

[论文解读] VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning

Yibo Wang, Yongcheng Jing|arXiv (Cornell University)|Jan 29, 2026

Multimodal Machine Learning Applications被引用 0

一句话总结

VTC-R1 通过将先前推理步骤呈现为紧凑图像来实现视觉-文本压缩，从而实现迭代视觉-语言推理，降低令牌并加速端到端延迟。在数学基准上实现最高 3.4× 的令牌压缩和最高 2.7× 的加速。

ABSTRACT

Long-context reasoning has significantly empowered large language models (LLMs) to tackle complex tasks, yet it introduces severe efficiency bottlenecks due to the computational complexity. Existing efficient approaches often rely on complex additional training or external models for compression, which limits scalability and discards critical fine-grained information. In this paper, we propose VTC-R1, a new efficient reasoning paradigm that integrates vision-text compression into the reasoning process. Instead of processing lengthy textual traces, VTC-R1 renders intermediate reasoning segments into compact images, which are iteratively fed back into vision-language models as "optical memory." We construct a training dataset based on OpenR1-Math-220K achieving 3.4x token compression and fine-tune representative VLMs-Glyph and Qwen3-VL. Extensive experiments on benchmarks such as MATH500, AIME25, AMC23 and GPQA-D demonstrate that VTC-R1 consistently outperforms standard long-context reasoning. Furthermore, our approach significantly improves inference efficiency, achieving 2.7x speedup in end-to-end latency, highlighting its potential as a scalable solution for reasoning-intensive applications. Our code is available at https://github.com/w-yibo/VTC-R1.

研究动机与目标

促使并解决大型语言模型与视觉-语言模型在处理长上下文推理时的低效问题。
提出一种模型无关、轻量级的解决方案，保留细粒度推理信息。
利用视觉-文本压缩将文本推理痕迹转换为紧凑的可视化表示。
在标准数学基准上展示更高的准确性和显著的延迟下降。

提出的方法

将长上下文推理分解为迭代段落 LP1…LPn，并将每个前序段落渲染为图像 I1…I(n-1)。
在问题、先前渲染图像和当前推理段的条件下，使 VLM 产生下一个推理轨迹 LRi。
使用轻量化渲染算子 Rθ 将 LRi 渲染为图像，创建在下一次迭代之前的光学记忆。
在来自 OpenR1-Math-Inf 的图像-文本成对数据集上对代表性 VLM（Glyph 与 Qwen3-VL）进行微调，达到最高 3.4× 的令牌压缩。
定义视觉-文本压缩比ρ = Lt / Lv，其中 Lt 是文本令牌，Lv 是视觉令牌，ρ 约为 3–4。
带独立请求状态和动态活动集的批量推理自适应，以实现高效并行生成。

实验结果

研究问题

RQ1视觉-文本压缩是否能保留足够的推理信号以支持多步数学推理？
RQ2迭代的、基于图像的记忆方法在准确性与延迟方面是否可与标准的长上下文推理竞争或优越？
RQ3VTC-R1 是否能推广到领域外的推理基准，超出内部的数学数据集？
RQ4段落长度和迭代次数对准确性与延迟有何影响？
RQ5在多步推理下，渲染图像对保持性能的重要性如何？

主要发现

模型	GSM8K ACC	GSM8K TOK	GSM8K LAT	MATH500 ACC	MATH500 TOK	MATH500 LAT	AIME25 ACC (Avg@16)	AIME25 TOK	AIME25 LAT	AMC23 ACC (Avg@16)	AMC23 TOK	AMC23 LAT
Qwen3-VL-8B SFT	88.1	1.79	3.04	85.4	4.17	5.36	32.71	17.46	29.85	75.00	8.20	11.08
VTC-R1 (Glyph)	94.7 (+6.6)	1.09	0.46 (6.6×)	90.0 (+4.6)	3.39	2.49 (2.2×)	30.00 (-2.71)	14.32	12.02 (2.5×)	77.97 (+2.97)	8.18	6.45 (1.7×)
Glyph Base SFT	86.1	2.35	1.38	79.6	5.51	2.77	24.17	19.94	14.48	61.56	12.67	8.55
Glyph SFT	87.1	1.87	0.93	80.4	5.71	3.05	25.62	17.47	11.52	60.94	11.65	6.85
TokenSkip	86.4	2.25	1.32	80.6	6.11	3.05	23.75	17.82	11.85	59.53	12.81	8.41
VTC-R1 (Qwen3-VL-8B)	93.6 (+6.5)	1.09	0.34 (2.7×)	86.0 (+5.6)	4.12	2.19 (1.4×)	26.25 (+0.63)	12.95	6.81 (1.7×)	64.38 (+3.44)	8.81	4.30 (1.6×)

VTC-R1 在多个数学基准（如 GSM8K、MATH500、AIME25、AMC23）以及领域外的 GPQA-Diamond 上持续提升相对于标准长上下文推理的准确性。
在 Glyph 上，VTC-R1 相比文本为主的长上下文推理，达到最高 2.7× 的端到端延迟加速和最高 3.4× 的令牌压缩。
对于 Qwen3-VL-8B，VTC-R1 显示出具有竞争力甚至优越的准确性和显著的延迟降低，在具有挑战性的任务上尤为显著。
在所有基准上，该方法表现出自适应推理行为，其中迭代次数随题目难度变化，并在若干轮迭代后收敛。
消融研究表明 4K 段长度通常在准确性与延迟之间取得最佳权衡；移除图像输入会降低性能，证实渲染图像作为记忆的好处。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。