QUICK REVIEW

[논문 리뷰] Self-Verification Dilemma: Experience-Driven Suppression of Overused Checking in LLM Reasoning

Quanyu Long, Kai Jie Jiang|arXiv (Cornell University)|2026. 02. 03.

Explainable Artificial Intelligence (XAI)인용 수 0

한 줄 요약

본 논문은 LLM 추론에서 많은 자기 검증(재확인) 단계가 대개 확인적이며, 중복 재확인을 선택적으로 억제하는 경험 주도형 테스트 시 프레임워크를 제안하여 토큰 사용을 줄이면서 정확도는 유지되거나 향상될 수 있음을 보여준다.

ABSTRACT

Large Reasoning Models (LRMs) achieve strong performance by generating long reasoning traces with reflection. Through a large-scale empirical analysis, we find that a substantial fraction of reflective steps consist of self-verification (recheck) that repeatedly confirm intermediate results. These rechecks occur frequently across models and benchmarks, yet the vast majority are confirmatory rather than corrective, rarely identifying errors and altering reasoning outcomes. This reveals a mismatch between how often self-verification is activated and how often it is actually useful. Motivated by this, we propose a novel, experience-driven test-time framework that reduces the overused verification. Our method detects the activation of recheck behavior, consults an offline experience pool of past verification outcomes, and estimates whether a recheck is likely unnecessary via efficient retrieval. When historical experience suggests unnecessary, a suppression signal redirects the model to proceed. Across multiple model and benchmarks, our approach reduces token usage up to 20.3% while maintaining the accuracy, and in some datasets even yields accuracy improvements.

연구 동기 및 목표

추론 중 LLM이 반성적 자기 검증을 얼마나 자주 수행하는지 정량화한다.
다시 생각하기(rethink)와 재확인(recheck)를 구분하여 반성의 기능적 역할을 이해한다.
재확인이 수정적인지 확인적인지의 빈도와 정확도에 대한 영향을 평가한다.
모델을 재학습시키지 않고 저효용 재확인을 억제하는 오프라인 경험 주도형 테스트 시 프레임워크를 제안한다.
다수의 모델과 수학 벤치마크에 걸친 제안된 접근법의 효율성 향상과 정확도 트레이드오프를 보여준다.

제안 방법

추론 흔적에서 반성적 단계를 경험적으로 분석하여 다시 생각하기(rethink)와 재확인(recheck)로 분류한다.
GPT-5와 인간 점검을 활용하여 재확인의 결과를 수정적(corrective) 또는 확인적(confirmatory)로 주석화한다.
과거 재확인의 맥락과 필요성을 기록하는 오프라인 경험 풀을 구축한다.
가벼운 재확인 활성화 탐지기(binary classifier with >97% accuracy)를 개발한다.
현재 재확인의 유용성을 추정하기 위해 BM25를 통한 상위-k개 유사 경험 단위를 검색한다.
과거 경험이 재확인이 이익이 되지 않을 가능성을 시사할 때 억제 신호를 주입하되 모델 매개변수는 변경하지 않는다.

Figure 1 : Reflective behaviors commonly observed in step-by-step mathematical reasoning. We illustrate three categories: rethink, where the model revises its strategy and explores an alternative line of reasoning; and recheck, where the model verifies already-derived intermediate results through re

실험 결과

연구 질문

RQ1벤치마크와 모델 전반에서 LLM이 추론 중에 반성적 자기 검증을 얼마나 자주 나타내는가?
RQ2재확인의 어느 부분이 수정적이고 어느 부분이 확인적이며, 이것이 유용성에 어떤 영향을 미치는가?
RQ3과거 검증 경험을 활용하여 테스트 시점에 중복 재확인을 선택적으로 억제하되 재학습 없이 가능할까?
RQ4다양한 수학 벤치마크에 걸쳐 경험 주도 억제(EDS)를 적용했을 때의 정확도와 효율성의 트레이드오프는 무엇인가?

주요 결과

모델	데이터셋	정확도_Base (%)	정확도_FullSuppress (%)	정확도_EDS (%)	길이_Base	길이_FullSuppress	길이_EDS
Qwen3-8B	AIME24	74.58	70.63 (-3.95)	72.92 (-1.66)	14605	12734 (-12.8%)	13296 (-9.0%)
Qwen3-8B	AIME25	67.71	66.67 (-1.04)	70.00 (+2.29)	17133	15713 (-8.3%)	16086 (-6.1%)
Qwen3-8B	AMC	95.62	96.25 (+0.63)	98.75 (+3.13)	8091	6564 (-18.9%)	6893 (-14.8%)
Qwen3-8B	Math500	95.80	95.20 (-0.60)	97.20 (+1.40)	4939	3935 (-20.3%)	4110 (-16.8%)
Qwen3-8B	Olympiad Bench	80.42	79.53 (-0.89)	79.82 (-0.60)	10480	9540 (-9.0%)	9739 (-7.1%)
QWQ-32B	AIME2024	79.17	78.75 (-0.42)	83.33 (+4.16)	11237	10105 (-13.4%)	10478 (-9.5%)
QWQ-32B	AIME2025	68.54	64.16 (-4.38)	65.63 (-2.91)	15811	14133 (-10.6%)	14908 (-5.7%)
QWQ-32B	AMC	97.50	93.75 (-3.75)	95.00 (-2.50)	7542	6526 (-13.5%)	6719 (-10.9%)
QWQ-32B	Math500	97.00	95.60 (-1.40)	97.00 (-0.00)	4659	3768 (-19.1%)	3940 (-15.4%)
QWQ-32B	Olympiad Bench	81.90	81.45 (-0.45)	83.53 (+1.63)	9602	8454 (-12.0%)	8710 (-9.3%)
DeepSeek-7B	AIME24	57.50	56.67 (-0.83)	58.75 (+1.25)	11237	10105 (-10.1%)	10478 (-6.8%)
DeepSeek-7B	AIME25	39.38	35.42 (-3.96)	36.46 (-2.92)	12489	11221 (-10.1%)	11680 (-7.4%)
DeepSeek-7B	AMC	91.25	90.00 (-1.25)	90.63 (-0.62)	5401	5067 (-6.2%)	5145 (-4.7%)
DeepSeek-7B	Math500	90.60	87.20 (-3.40)	89.80 (-0.80)	3303	2726 (-17.5%)	2891 (-12.5%)
DeepSeek-7B	Olympiad Bench	69.00	66.91 (-2.09)	67.95 (-1.05)	7913	7002 (-11.5%)	7183 (-9.2%)

반성적 단계는 추론의 상당 부분을 차지하며 모델과 벤치마크에 걸쳐 종종 전체 단계의 1/3에 육박하거나 이를 초과한다.
재확인은 반성의 큰 부분으로(약 40–58%), 더 쉬운 데이터셋에서는 전략 수정보다는 로컬 검증으로서 더 널리 나타난다.
재확인의 약 85–95%가 확인적이며 중간 결과나 최종 답을 바꾸지 않는다.
오프라인 경험 풀이 현재 재확인이 이로울지 여부를 추정하게 해 주어 선택적 억제를 가능하게 한다.
EDS는 평균적으로 추론 길이를 약 9% 감소시키고 MATH500에서 최대 20.3%까지 감소시키며, 모델/데이터셋 전반에서 정확도는 유지되거나 약간 향상된다.
전면 억제 및 과격한 자르기 방법과 비교하여, EDS는 필요한 다시 생각하기와 유익한 재확인을 보존하고 바람직한 정확도-효율성 트레이드오프를 달성한다.

Figure 2 : Percentage of steps classified as reflections.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.