[논문 리뷰] Recursive Think-Answer Process for LLMs and VLMs
R-TAP은 LLMs와 VLMs가 자신감 기반 재귀 루프를 통해 추론을 반복적으로 개선하도록 하며, 학습된 Confidence Generator와 두 개의 보상 신호를 사용하여 추가 추론 비용 없이 정확도와 추론 안정성을 향상시킵니다.
Think-Answer reasoners such as DeepSeek-R1 have made notable progress by leveraging interpretable internal reasoning. However, despite the frequent presence of self-reflective cues like "Oops!", they remain vulnerable to output errors during single-pass inference. To address this limitation, we propose an efficient Recursive Think-Answer Process (R-TAP) that enables models to engage in iterative reasoning cycles and generate more accurate answers, going beyond conventional single-pass approaches. Central to this approach is a confidence generator that evaluates the certainty of model responses and guides subsequent improvements. By incorporating two complementary rewards-Recursively Confidence Increase Reward and Final Answer Confidence Reward-we show that R-TAP-enhanced models consistently outperform conventional single-pass methods for both large language models (LLMs) and vision-language models (VLMs). Moreover, by analyzing the frequency of "Oops"-like expressions in model responses, we find that R-TAP-applied models exhibit significantly fewer self-reflective patterns, resulting in more stable and faster inference-time reasoning. We hope R-TAP pave the way evolving into efficient and elaborated methods to refine the reasoning processes of future AI.
연구 동기 및 목표
- Think-Answer 모델에서 반복적 자성고찰의 필요성을 동기화하여 단일 패스 오류를 줄이고 신뢰성을 향상시킨다.
- 언어 단일 및 다중 모달 추론 작업 모두에 재귀적 사고를 일반화한다.
- Reasoning의 신뢰성을 평가하고 재귀적 정제를 지도하기 위해 Confidence Generator를 도입한다.
- 재귀적 추론을 학습시키기 위해 Recursive Confidence Increase와 Final Answer Confidence의 이중 보상 프레임워크를 개발한다.
- 다양한 벤치마크에서의 향상을 시연하고 테스트 시 추론 효율성을 유지한다.
제안 방법
- Confidence Generator를 기본 모델에서 초기화하고 Think-Answer 각 단계에 대해 0에서 1까지의 신뢰도 점수를 출력하도록 미세조정한다.
- 이전 Think-Answers를 조건으로 하고 o^(t+1)를 생성하는 재귀적 Think-Answer 생성 체계를 정의하여 반복적 정제를 가능하게 한다.
- 두 개의 신뢰도 기반 보상: Recursively Confidence Increase Reward와 Final Answer Confidence Reward를 conventional rewards와 함께 설계하여 학습을 안내한다.
- 두 단계 학습 파이프라인을 사용한다: 1단계는 Confidence Generator의 이진 정답 라벨을 사용한 지도 사전학습; 2단계는 GRPO를 사용한 강화학습으로 신뢰도 신호 하에서 재귀적 추론을 최적화한다.
- 훈련 중 재귀 깊이 T를 고정하여 배치 샘플링을 효율화하고 추론 시 비용이 없도록 Training 중에만 Confidence Generator를 사용한다.
- 훈련 하드웨어(NVIDIA A100), 배치 생성(N=128 샘플의 사전학습, RL 시 N=12 출력), GRPO의 하이퍼파라미터 등 구현 세부사항을 제공한다.
실험 결과
연구 질문
- RQ1R-TAP이 다양한 수학 및 다중 모달 추론 벤치마크에서 LLM과 VLM 모두의 정확도를 향상시키는가?
- RQ2자신감 기반 재귀적 추론 루프가 자가 성찰 실패("Oops!")을 줄이고 추론 시간을 증가시키지 않으면서 추론 속도를 높일 수 있는가?
- RQ3Confidence Generator가 언어 단일 및 다중 모달 설정에서 효과적이며 훈련 중 신뢰도 추정치를 제공하도록 학습될 수 있는가?
- RQ4제안된 Recursive Confidence Increase 및 Final Answer Confidence 보상이 추론 경로의 질과 깊이에 어떤 영향을 미치는가?
주요 결과
- R-TAP은 단일 패스 기준선과 비교해 다양한 언어 및 비전-언어 벤치마크에서 강력하고 일관된 성능 향상을 보여준다.
- R-TAP로 학습된 모델은 추론 중 자가 성찰 오류 신호를 크게 감소시켜 더 안정적이고 빠른 추론을 나타낸다.
- Confidence Generator는 학습 시에만 사용되어 추론 시 효율성을 보존하면서 내부 평가 및 선택적 정제를 가능하게 한다.
- 신뢰도 기반 보상과 함께한 재귀 학습은 사이클 간의 더 깊은 사고와 잘못된 추론을 수정하도록 촉진하여 최종 답변의 품질을 향상시킨다.
- 다양한 모델 계열과 벤치마크에서의 정량적 결과는 LLM과 VLM 모두에 R-TAP의 광범위한 적용 가능성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.