[논문 리뷰] V-Zero: Self-Improving Multimodal Reasoning with Zero Annotation
V-Zero는 라벨링 없는 이미지로 학습된 Questioner와 Solver 간의 제로 어노테이션 자기향상 루프를 도입하여 인간 데이터 없이 시각-언어 추론에서 이득을 얻습니다.
Recent advances in multimodal learning have significantly enhanced the reasoning capabilities of vision-language models (VLMs). However, state-of-the-art approaches rely heavily on large-scale human-annotated datasets, which are costly and time-consuming to acquire. To overcome this limitation, we introduce V-Zero, a general post-training framework that facilitates self-improvement using exclusively unlabeled images. V-Zero establishes a co-evolutionary loop by instantiating two distinct roles: a Questioner and a Solver. The Questioner learns to synthesize high-quality, challenging questions by leveraging a dual-track reasoning reward that contrasts intuitive guesses with reasoned results. The Solver is optimized using pseudo-labels derived from majority voting over its own sampled responses. Both roles are trained iteratively via Group Relative Policy Optimization (GRPO), driving a cycle of mutual enhancement. Remarkably, without a single human annotation, V-Zero achieves consistent performance gains on Qwen2.5-VL-7B-Instruct, improving visual mathematical reasoning by +1.7 and general vision-centric by +2.6, demonstrating the potential of self-improvement in multimodal systems. Code is available at https://github.com/SatonoDia/V-Zero
연구 동기 및 목표
- 다중모달 추론에서 비용이 많이 드는 인간 주석 데이터 의존도를 줄이고자 한다.
- 원시 이미지에서 작동하는 제로 어노테이션 후학습 프레임워크를 제안한다.
- 내부 보상으로 최적화된 공진화적 Questioner-Solver 루프를 설계한다.
- 자체 생성 신호가 다양한 벤치마크에서 감독 학습 기준을 능가할 수 있음을 보여준다.
제안 방법
- 동일한 기본 VLM에서 두 역할을 인스턴스화한다: Questioner(Q)와 Solver(S).
- Q는 직관적 정답을 가진 이미지 조건부 MCQ를 생성하고; S는 샘플에 대한 다수결을 통해 추론 기반 의사 레이블을 제공한다.
- 직관과 추론 간의 차이를 드러내는 질문을 촉진하기 위해 이중 트랙 추론 보상을 사용한다.
- 제로 어노테이션 루프에서 Group Relative Policy Optimization(GRPO)으로 Q 및 S를 훈련한다.
- 난이도 가이드 데이터 샘플링과 Solver용 검증 가능한 RL 보상(RLVR)을 적용한다.
- 일반 시각 중심 및 수학적 추론 작업 전반에 걸쳐 VLMEvalKit 벤치마크에서 평가한다.

실험 결과
연구 질문
- RQ1시각-언어 모델이 인간이 주석한 데이터 없이도 추론을 향상시킬 수 있을까?
- RQ2공진화적 Questioner-Solver 루프가 감독 학습 기준 대비 측정 가능한 이득을 가져올까?
- RQ3이중 트랙 보상과 난이도 가이드 샘플링이 자기향상을 촉진하는 데 얼마나 효과적인가?
- RQ4기하 중심 데이터에서의 개선이 더 넓은 시각 중심 작업으로 전이되는가?
주요 결과
- V-Zero는 외부 감독 없이 기본 모델에 대해 일관된 개선을 제공합니다.
- Qwen2.5-VL-7B-Instruct의 Iteration 2에서 평균 점수가 49.9에서 51.9로 향상되며 (+2.0).
- MMMU와 MathVerse에서 7B 모델의 이득은 각각 +3.9 및 +3.0 포인트에 도달한다.
- 3B 모델의 Iteration 1은 평균 +0.7 포인트의 정점을 달성하며 MMMU 및 MathVision의 주목할 만한 이득이 있다.
- 7B 규모에서 인간 주석 데이터로 학습된 Supervis ed GRPO baseline을 상회하는 결과를 보였으며(평균 51.9 대 50.8).
- 질문자 제거, 이중 트랙 보상, 또는 데이터 필터링을 제거하면 성능이 크게 악화된다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.