QUICK REVIEW

[논문 리뷰] Reliability-Aware Adaptive Self-Consistency for Efficient Sampling in LLM Reasoning

J. Kim, Nakyeong Yang|arXiv (Cornell University)|2026. 01. 06.

Topic Modeling인용 수 0

한 줄 요약

ReASC는 단일 샘플 의사결정과 신뢰도 가중 누적을 활용하여 추론 비용을 줄이면서 정확도를 유지하는 LLM 추론을 위한 신뢰성 인식 두 단계적 적응적 자기일관성 프레임워크를 도입한다.

ABSTRACT

Self-Consistency improves reasoning reliability through multi-sample aggregation, but incurs substantial inference cost. Adaptive self-consistency methods mitigate this issue by adjusting the sampling budget; however, they rely on count-based stopping rules that treat all responses equally, often leading to unnecessary sampling. We propose Reliability-Aware Adaptive Self-Consistency (ReASC), which addresses this limitation by reframing adaptive sampling from response counting to evidence sufficiency, leveraging response-level confidence for principled information aggregation. ReASC operates in two stages: a single-sample decision stage that resolves instances confidently answerable from a single response, and a reliability-aware accumulation stage that aggregates responses by jointly leveraging their frequency and confidence. Across five models and four datasets, ReASC consistently achieves the best accuracy-cost trade-off compared to existing baselines, yielding improved inference efficiency across model scales from 3B to 27B parameters. As a concrete example, ReASC reduces inference cost by up to 70\% relative to self-consistency while preserving accuracy on GSM8K using Gemma-3-4B-it.

연구 동기 및 목표

개수 기반 중단의 비효율성을 해결하여 LLM 추론에서 Self-Consistency(SC)의 효율성을 개선하도록 동기를 부여한다.
응답 수준의 신뢰도를 활용하여 증거 누적을 안내하는 두 단계의 신뢰성 인식 프레임워크를 제안한다.
응답의 신뢰도가 여러 모델 군과 데이터셋에 걸쳐 적응적 샘플링 의사결정을 개선한다는 것을 입증한다.
3B에서 27B 매개변수 규모에 걸친 정확도 손실 없이 상당한 비용 절감을 보여주는 정확도-비용 트레이드를 정량화한다.

제안 방법

Stage 1(단일 샘플 의사결정)을 도입하여 단일 응답이 충분한 증거를 제공하는지 신뢰도 기반 게이트(tau_gate)를 사용해 결정한다.
Stage 2(신뢰성 인식 누적)을 도입하여 신뢰도 가중 베타 업데이트로 증거를 집계하고, 지수 매핑을 통해 응답을 그들의 신뢰도 S(y)로 가중한다.
주도 후보를 추적하기 위해 베타 포스터리어 업데이트를 사용하고 P(p1>p2|V) >= C_threshold이며 최대 예산에서 중단한다.
토큰 수준의 자기확실성에서 파생된 하위 10% 그룹 신뢰도로부터 응답 신뢰성을 추정하기 위한 신뢰도 신호를 정의한다.
레이블이 없는 경우 온라인에서 두 구성요소 가우시안 혼합 모델을 사용하여 온라인으로도 오프라인으로도 신뢰도 통계(mu, sigma)와 게이팅 임계값을 보정한다.
오프라인 게이팅 임계값 보정(Algorithm 1)과 온라인 보정 절차(Algorithm 2)를 제공한다.

실험 결과

연구 질문

RQ1응답 수준의 신뢰성을 도입하는 것이 LLM 추론의 적응적 자기일관성의 효율성을 향상시키는가?
RQ2두 단계 프레임워크(단일 샘플 의사결정 + 신뢰성 인식 누적)가 모델 군과 데이터세트 전반에서 정확도를 유지하거나 향상시키면서 추론 비용을 감소시킬 수 있는가?
RQ3신뢰도 가중 증거 누적이 샘플 효율성과 안정성 측면에서 개수 기반 중단과 비교해 어떠한가?
RQ4오프라인 및 온라인 설정에서 신뢰도 신호와 의사결정 임계값을 보정하기 위한 효과적인 전략은 무엇인가?

주요 결과

ReASC는 SC 및 기존 적응 기반과 비교하여 다섯 모델과 네 개의 추론 데이터셋에서 최고의 정확도-비용 트레이드오프(Acc/TF)를 달성한다.
GSM8K에서 Gemma-3-4B-it로, ReASC는 자기일관성에 비해 최대 70%의 추론 비용 절감을 달성하면서 정확도를 유지한다.
Stage 1은 모델 규모가 커질수록 단일 응답으로 해결할 수 있는 인스턴스의 비율이 증가하는 것을 식별하며, 정확도는 높다(대부분 90% 이상).
Stage 2는 Stage 1에서 해결되지 않은 인스턴스에 대해 정확도를 유지하면서 개수 기반 중단에 비해 추론 비용을 안정적으로 감소시킨다.
신뢰도 가중 베타 업데이트는 종료 임계값으로 더 빠르게 수렴하게 하여(예: ASC의 7회 업데이트 대비 4회 업데이트) 샘플링 효율성을 크게 향상시킨다.
단계별 제거 실험은 Stage 1과 Stage 2가 보완적 역할을 하며, Stage 1이 불필요한 샘플링을 줄이고 Stage 2가 필요할 때 증거 누적을 가속시킨다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.