QUICK REVIEW

[논문 리뷰] Recursive Think-Answer Process for LLMs and VLMs

Byung-Kwan Lee, Youngchae Chee|arXiv (Cornell University)|2026. 03. 02.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

R-TAP은 LLMs와 VLMs가 자신감 기반 재귀 루프를 통해 추론을 반복적으로 개선하도록 하며, 학습된 Confidence Generator와 두 개의 보상 신호를 사용하여 추가 추론 비용 없이 정확도와 추론 안정성을 향상시킵니다.

ABSTRACT

Think-Answer reasoners such as DeepSeek-R1 have made notable progress by leveraging interpretable internal reasoning. However, despite the frequent presence of self-reflective cues like "Oops!", they remain vulnerable to output errors during single-pass inference. To address this limitation, we propose an efficient Recursive Think-Answer Process (R-TAP) that enables models to engage in iterative reasoning cycles and generate more accurate answers, going beyond conventional single-pass approaches. Central to this approach is a confidence generator that evaluates the certainty of model responses and guides subsequent improvements. By incorporating two complementary rewards-Recursively Confidence Increase Reward and Final Answer Confidence Reward-we show that R-TAP-enhanced models consistently outperform conventional single-pass methods for both large language models (LLMs) and vision-language models (VLMs). Moreover, by analyzing the frequency of "Oops"-like expressions in model responses, we find that R-TAP-applied models exhibit significantly fewer self-reflective patterns, resulting in more stable and faster inference-time reasoning. We hope R-TAP pave the way evolving into efficient and elaborated methods to refine the reasoning processes of future AI.

연구 동기 및 목표

Think-Answer 모델에서 반복적 자성고찰의 필요성을 동기화하여 단일 패스 오류를 줄이고 신뢰성을 향상시킨다.
언어 단일 및 다중 모달 추론 작업 모두에 재귀적 사고를 일반화한다.
Reasoning의 신뢰성을 평가하고 재귀적 정제를 지도하기 위해 Confidence Generator를 도입한다.
재귀적 추론을 학습시키기 위해 Recursive Confidence Increase와 Final Answer Confidence의 이중 보상 프레임워크를 개발한다.
다양한 벤치마크에서의 향상을 시연하고 테스트 시 추론 효율성을 유지한다.

제안 방법

Confidence Generator를 기본 모델에서 초기화하고 Think-Answer 각 단계에 대해 0에서 1까지의 신뢰도 점수를 출력하도록 미세조정한다.
이전 Think-Answers를 조건으로 하고 o^(t+1)를 생성하는 재귀적 Think-Answer 생성 체계를 정의하여 반복적 정제를 가능하게 한다.
두 개의 신뢰도 기반 보상: Recursively Confidence Increase Reward와 Final Answer Confidence Reward를 conventional rewards와 함께 설계하여 학습을 안내한다.
두 단계 학습 파이프라인을 사용한다: 1단계는 Confidence Generator의 이진 정답 라벨을 사용한 지도 사전학습; 2단계는 GRPO를 사용한 강화학습으로 신뢰도 신호 하에서 재귀적 추론을 최적화한다.
훈련 중 재귀 깊이 T를 고정하여 배치 샘플링을 효율화하고 추론 시 비용이 없도록 Training 중에만 Confidence Generator를 사용한다.
훈련 하드웨어(NVIDIA A100), 배치 생성(N=128 샘플의 사전학습, RL 시 N=12 출력), GRPO의 하이퍼파라미터 등 구현 세부사항을 제공한다.

실험 결과

연구 질문

RQ1R-TAP이 다양한 수학 및 다중 모달 추론 벤치마크에서 LLM과 VLM 모두의 정확도를 향상시키는가?
RQ2자신감 기반 재귀적 추론 루프가 자가 성찰 실패("Oops!")을 줄이고 추론 시간을 증가시키지 않으면서 추론 속도를 높일 수 있는가?
RQ3Confidence Generator가 언어 단일 및 다중 모달 설정에서 효과적이며 훈련 중 신뢰도 추정치를 제공하도록 학습될 수 있는가?
RQ4제안된 Recursive Confidence Increase 및 Final Answer Confidence 보상이 추론 경로의 질과 깊이에 어떤 영향을 미치는가?

주요 결과

R-TAP은 단일 패스 기준선과 비교해 다양한 언어 및 비전-언어 벤치마크에서 강력하고 일관된 성능 향상을 보여준다.
R-TAP로 학습된 모델은 추론 중 자가 성찰 오류 신호를 크게 감소시켜 더 안정적이고 빠른 추론을 나타낸다.
Confidence Generator는 학습 시에만 사용되어 추론 시 효율성을 보존하면서 내부 평가 및 선택적 정제를 가능하게 한다.
신뢰도 기반 보상과 함께한 재귀 학습은 사이클 간의 더 깊은 사고와 잘못된 추론을 수정하도록 촉진하여 최종 답변의 품질을 향상시킨다.
다양한 모델 계열과 벤치마크에서의 정량적 결과는 LLM과 VLM 모두에 R-TAP의 광범위한 적용 가능성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.