[논문 리뷰] VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning
VTC-R1은 이전 추론 단계를 컴팩트한 이미지로 렌더링하여 비전-텍스트 압축을 통한 반복적 비전-언어 추론을 가능하게 하며, 토큰 수를 줄이고 엔드-투-엔드 대기 시간을 빠르게 합니다. 추가 훈련이나 외부 모델 없이도 토큰 압축 최대 3.4×, 수학 벤치마크에서 최대 2.7×의 속도 향상을 달성합니다.
Long-context reasoning has significantly empowered large language models (LLMs) to tackle complex tasks, yet it introduces severe efficiency bottlenecks due to the computational complexity. Existing efficient approaches often rely on complex additional training or external models for compression, which limits scalability and discards critical fine-grained information. In this paper, we propose VTC-R1, a new efficient reasoning paradigm that integrates vision-text compression into the reasoning process. Instead of processing lengthy textual traces, VTC-R1 renders intermediate reasoning segments into compact images, which are iteratively fed back into vision-language models as "optical memory." We construct a training dataset based on OpenR1-Math-220K achieving 3.4x token compression and fine-tune representative VLMs-Glyph and Qwen3-VL. Extensive experiments on benchmarks such as MATH500, AIME25, AMC23 and GPQA-D demonstrate that VTC-R1 consistently outperforms standard long-context reasoning. Furthermore, our approach significantly improves inference efficiency, achieving 2.7x speedup in end-to-end latency, highlighting its potential as a scalable solution for reasoning-intensive applications. Our code is available at https://github.com/w-yibo/VTC-R1.
연구 동기 및 목표
- LLM 및 비전-언어 모델에서 긴 맥락 추론의 비효율성을 동기 부여하고 해결합니다.
- 정밀한 추론 정보를 보존하는 모델 프리 fut 로드가 없는 경량 솔루션을 제안합니다.
- 텍스트 추론 흔적을 컴팩트한 시각적 표현으로 전환하기 위해 비전-텍스트 압축을 활용합니다.
- 표준 수학 벤치마크에서 정확도 향상과 현저한 지연 감소를 입증합니다.
제안 방법
- 긴 맥락 추론을 반복 세그먼트 LP1...LPn로 분해하고 각 앞선 세그먼트들을 이미지 I1...I(n-1)로 렌더링합니다.
- VLM을 질문, 이전 렌더링 이미지, 현재 추론 세그먼트로 조건화하여 다음 추론 추적 LRi를 생성합니다.
- LRi를 Rθ라는 경량 렌더링 연산자로 이미징하여 다음 반복 이전의 광학 메모리를 만듭니다.
- OpenR1-Math-Inf에서 파생된 이미지–텍스트 짝 dataset으로 Glyph 및 Qwen3-VL과 같은 대표적 VLM을 최대 3.4× 토큰 압축으로 미세조정합니다.
- 비전-텍스트 압축 비율 ρ = Lt / Lv를 정의합니다. 여기서 Lt는 텍스트 토큰, Lv는 비전 토큰이며, ρ ≈ 3–4입니다.
- 효율적인 병렬 생성을 가능하게 하는 독립 요청 상태와 동적 활성 세트를 통한 배치 추론 적응.
실험 결과
연구 질문
- RQ1비전-텍스트 압축이 다중 단계 수학 추론을 지원할 만큼 충분한 추론 신호를 보존합니까?
- RQ2반복적이고 이미지 기반의 메모리 접근 방식이 정확도와 지연 면에서 표준 긴 맥락 추론에 비해 경쟁력이 있거나 더 우수합니까?
- RQ3VTC-R1이 도메인 밖 수학 데이터셋을 넘어 분포 외 추론 벤치마크에 일반화됩니까?
- RQ4세그먼트 길이와 반복 횟수가 정확도와 지연에 어떤 영향을 줍니까?
- RQ5다중 단계 추론에서 렌더링된 이미지가 성능 유지에 얼마나 필수적입니까?
주요 결과
| 모델 | GSM8K 정확도 | GSM8K 토큰 | GSM8K 지연 | MATH500 정확도 | MATH500 토큰 | MATH500 지연 | AIME25 정확도 (Avg@16) | AIME25 토큰 | AIME25 지연 | AMC23 정확도 (Avg@16) | AMC23 토큰 | AMC23 지연 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Qwen3-VL-8B SFT | 88.1 | 1.79 | 3.04 | 85.4 | 4.17 | 5.36 | 32.71 | 17.46 | 29.85 | 75.00 | 8.20 | 11.08 |
| VTC-R1 (Glyph) | 94.7 (+6.6) | 1.09 | 0.46 (6.6×) | 90.0 (+4.6) | 3.39 | 2.49 (2.2×) | 30.00 (-2.71) | 14.32 | 12.02 (2.5×) | 77.97 (+2.97) | 8.18 | 6.45 (1.7×) |
| Glyph Base SFT | 86.1 | 2.35 | 1.38 | 79.6 | 5.51 | 2.77 | 24.17 | 19.94 | 14.48 | 61.56 | 12.67 | 8.55 |
| Glyph SFT | 87.1 | 1.87 | 0.93 | 80.4 | 5.71 | 3.05 | 25.62 | 17.47 | 11.52 | 60.94 | 11.65 | 6.85 |
| TokenSkip | 86.4 | 2.25 | 1.32 | 80.6 | 6.11 | 3.05 | 23.75 | 17.82 | 11.85 | 59.53 | 12.81 | 8.41 |
| VTC-R1 (Qwen3-VL-8B) | 93.6 (+6.5) | 1.09 | 0.34 (2.7×) | 86.0 (+5.6) | 4.12 | 2.19 (1.4×) | 26.25 (+0.63) | 12.95 | 6.81 (1.7×) | 64.38 (+3.44) | 8.81 | 4.30 (1.6×) |
- VTC-R1은 GSM8K, MATH500, AIME25, AMC23 등 여러 수학 벤치마크 및 GPQA-Diamond과 같은 도메인 밖 데이터에서 표준 긴 맥락 추론보다 일관되게 정확도를 향상시킵니다.
- Glyph에서 VTC-R1은 텍스트만 사용한 긴 맥락 추론에 비해 엔드-투-엔드 지연의 최대 2.7× 속도향상과 최대 3.4× 토큰 압축을 달성합니다.
- Qwen3-VL-8B에 대해서도 VTC-R1은 경쟁력 있거나 우수한 정확도와 상당한 지연 감소를 보여주며, 도전적인 작업에서 뚜렷한 이점을 보입니다.
- 벤치마크 전반에 걸쳐 이 접근 방식은 적응적 추론 동작을 나타내며, 문제의 난이도에 따라 반복 횟수가 달라지며 여러 차례의 반복 후 수렴합니다.
- 消핵 연구에서 4K 세그먼트 길이가 일반적으로 정확도와 지연 사이의 최적 트레이드오프를 제공합니다; 이미지 입력 제거는 성능 저하를 가져와 렌더링된 이미지가 메모리로서의 이점을 확인합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.