Skip to main content
QUICK REVIEW

[논문 리뷰] Reliability-Aware Adaptive Self-Consistency for Efficient Sampling in LLM Reasoning

J. Kim, Nakyeong Yang|arXiv (Cornell University)|2026. 01. 06.
Topic Modeling인용 수 0
한 줄 요약

ReASC는 단일 샘플 의사결정과 신뢰도 가중 누적을 활용하여 추론 비용을 줄이면서 정확도를 유지하는 LLM 추론을 위한 신뢰성 인식 두 단계적 적응적 자기일관성 프레임워크를 도입한다.

ABSTRACT

Self-Consistency improves reasoning reliability through multi-sample aggregation, but incurs substantial inference cost. Adaptive self-consistency methods mitigate this issue by adjusting the sampling budget; however, they rely on count-based stopping rules that treat all responses equally, often leading to unnecessary sampling. We propose Reliability-Aware Adaptive Self-Consistency (ReASC), which addresses this limitation by reframing adaptive sampling from response counting to evidence sufficiency, leveraging response-level confidence for principled information aggregation. ReASC operates in two stages: a single-sample decision stage that resolves instances confidently answerable from a single response, and a reliability-aware accumulation stage that aggregates responses by jointly leveraging their frequency and confidence. Across five models and four datasets, ReASC consistently achieves the best accuracy-cost trade-off compared to existing baselines, yielding improved inference efficiency across model scales from 3B to 27B parameters. As a concrete example, ReASC reduces inference cost by up to 70\% relative to self-consistency while preserving accuracy on GSM8K using Gemma-3-4B-it.

연구 동기 및 목표

  • 개수 기반 중단의 비효율성을 해결하여 LLM 추론에서 Self-Consistency(SC)의 효율성을 개선하도록 동기를 부여한다.
  • 응답 수준의 신뢰도를 활용하여 증거 누적을 안내하는 두 단계의 신뢰성 인식 프레임워크를 제안한다.
  • 응답의 신뢰도가 여러 모델 군과 데이터셋에 걸쳐 적응적 샘플링 의사결정을 개선한다는 것을 입증한다.
  • 3B에서 27B 매개변수 규모에 걸친 정확도 손실 없이 상당한 비용 절감을 보여주는 정확도-비용 트레이드를 정량화한다.

제안 방법

  • Stage 1(단일 샘플 의사결정)을 도입하여 단일 응답이 충분한 증거를 제공하는지 신뢰도 기반 게이트(tau_gate)를 사용해 결정한다.
  • Stage 2(신뢰성 인식 누적)을 도입하여 신뢰도 가중 베타 업데이트로 증거를 집계하고, 지수 매핑을 통해 응답을 그들의 신뢰도 S(y)로 가중한다.
  • 주도 후보를 추적하기 위해 베타 포스터리어 업데이트를 사용하고 P(p1>p2|V) >= C_threshold이며 최대 예산에서 중단한다.
  • 토큰 수준의 자기확실성에서 파생된 하위 10% 그룹 신뢰도로부터 응답 신뢰성을 추정하기 위한 신뢰도 신호를 정의한다.
  • 레이블이 없는 경우 온라인에서 두 구성요소 가우시안 혼합 모델을 사용하여 온라인으로도 오프라인으로도 신뢰도 통계(mu, sigma)와 게이팅 임계값을 보정한다.
  • 오프라인 게이팅 임계값 보정(Algorithm 1)과 온라인 보정 절차(Algorithm 2)를 제공한다.

실험 결과

연구 질문

  • RQ1응답 수준의 신뢰성을 도입하는 것이 LLM 추론의 적응적 자기일관성의 효율성을 향상시키는가?
  • RQ2두 단계 프레임워크(단일 샘플 의사결정 + 신뢰성 인식 누적)가 모델 군과 데이터세트 전반에서 정확도를 유지하거나 향상시키면서 추론 비용을 감소시킬 수 있는가?
  • RQ3신뢰도 가중 증거 누적이 샘플 효율성과 안정성 측면에서 개수 기반 중단과 비교해 어떠한가?
  • RQ4오프라인 및 온라인 설정에서 신뢰도 신호와 의사결정 임계값을 보정하기 위한 효과적인 전략은 무엇인가?

주요 결과

  • ReASC는 SC 및 기존 적응 기반과 비교하여 다섯 모델과 네 개의 추론 데이터셋에서 최고의 정확도-비용 트레이드오프(Acc/TF)를 달성한다.
  • GSM8K에서 Gemma-3-4B-it로, ReASC는 자기일관성에 비해 최대 70%의 추론 비용 절감을 달성하면서 정확도를 유지한다.
  • Stage 1은 모델 규모가 커질수록 단일 응답으로 해결할 수 있는 인스턴스의 비율이 증가하는 것을 식별하며, 정확도는 높다(대부분 90% 이상).
  • Stage 2는 Stage 1에서 해결되지 않은 인스턴스에 대해 정확도를 유지하면서 개수 기반 중단에 비해 추론 비용을 안정적으로 감소시킨다.
  • 신뢰도 가중 베타 업데이트는 종료 임계값으로 더 빠르게 수렴하게 하여(예: ASC의 7회 업데이트 대비 4회 업데이트) 샘플링 효율성을 크게 향상시킨다.
  • 단계별 제거 실험은 Stage 1과 Stage 2가 보완적 역할을 하며, Stage 1이 불필요한 샘플링을 줄이고 Stage 2가 필요할 때 증거 누적을 가속시킨다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.