QUICK REVIEW

[论文解读] Reliability-Aware Adaptive Self-Consistency for Efficient Sampling in LLM Reasoning

J. Kim, Nakyeong Yang|arXiv (Cornell University)|Jan 6, 2026

Topic Modeling被引用 0

一句话总结

ReASC 引入了一个面向可靠性的两阶段自适应自一致性框架，用于LLM推理，通过单样本决策和置信度加权累积来在保持准确性的同时降低推理成本。

ABSTRACT

Self-Consistency improves reasoning reliability through multi-sample aggregation, but incurs substantial inference cost. Adaptive self-consistency methods mitigate this issue by adjusting the sampling budget; however, they rely on count-based stopping rules that treat all responses equally, often leading to unnecessary sampling. We propose Reliability-Aware Adaptive Self-Consistency (ReASC), which addresses this limitation by reframing adaptive sampling from response counting to evidence sufficiency, leveraging response-level confidence for principled information aggregation. ReASC operates in two stages: a single-sample decision stage that resolves instances confidently answerable from a single response, and a reliability-aware accumulation stage that aggregates responses by jointly leveraging their frequency and confidence. Across five models and four datasets, ReASC consistently achieves the best accuracy-cost trade-off compared to existing baselines, yielding improved inference efficiency across model scales from 3B to 27B parameters. As a concrete example, ReASC reduces inference cost by up to 70\% relative to self-consistency while preserving accuracy on GSM8K using Gemma-3-4B-it.

研究动机与目标

通过解决基于计数的停止策略的低效问题，推动LLM推理中自一致性(SC)的效率提升。
提出一个两阶段、面向可靠性的框架，利用响应层面的置信度来引导证据累积。
证明响应可靠性能在多种模型家族和数据集上改善自适应采样决策。
量化准确性-成本权衡，并在从3B到27B参数的尺度上展示显著的成本下降且不牺牲准确性。

提出的方法

引入阶段1（单样本决策）以通过置信度门控(tau_gate)确定单个响应是否提供了足够的证据。
引入阶段2（可靠性感知累积）以置信度加权的Beta更新来聚合证据，通过对响应的可靠性S(y)进行指数映射来加权。
使用Beta后验更新跟踪领先候选，并在最大预算内当P(p1>p2|V) >= C_threshold时停止。
基于Token级自我确定性导出的底部10%组置信度，定义置信信号以估计响应可靠性。
离线或在线对置信统计量(mu, sigma)和门控阈值进行标定，在线在缺少标签时使用二成分高斯混合模型。
提供离线门控阈值标定（算法1）和在线标定过程（算法2）。

实验结果

研究问题

RQ1将响应层面的可靠性纳入是否能提升LLM推理的自适应自一致性效率？
RQ2两阶段框架（单样本决策+可靠性感知累积）在不同模型家族和数据集上是否能在保持或提升精准度的同时降低推理成本？
RQ3相较于基于计数的停止，置信度加权证据累积在样本利用率和稳定性方面有何不同？
RQ4在离线和在线设置中，如何有效地标定置信信号与决策阈值？

主要发现

与SC及现有自适应基线相比，ReASC在五个模型和四个推理数据集上实现了最佳的准确性-成本权衡（Acc/TF）。
在GSM8K数据集的Gemma-3-4B-it设置中，ReASC相较于自一致性将推理成本降低最多70%，同时保持准确性。
阶段1在模型规模扩大时识别出越来越多的实例可通过单一响应解决，且准确性较高（大多数>90%）。
阶段2在不在阶段1解决的实例上相较于基于计数的停止可靠地降低了推理成本，同时保持准确性。
置信度加权Beta更新使收敛速度更快（如4次更新 vs ASC的7次更新），从而带来显著的采样效率提升。
阶段性消融显示阶段1和阶段2互为补充：阶段1减少不必要的采样，阶段2在需要时加速证据累积。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。