[论文解读] Reasoning Beyond Chain-of-Thought: A Latent Computational Mode in Large Language Models
该论文通过稀疏自编码器识别出大语言模型中的一小组潜在特征,并显示对这些特征的定向引导能够在不明确链路思维提示的情况下触发或增强多步推理,在某些情况下可达到或超过链路思维的性能表现。
Chain-of-Thought (CoT) prompting has improved the reasoning performance of large language models (LLMs), but it remains unclear why it works and whether it is the unique mechanism for triggering reasoning in large language models. In this work, we study this question by directly analyzing and intervening on the internal representations of LLMs with Sparse Autoencoders (SAEs), identifying a small set of latent features that are causally associated with LLM reasoning behavior. Across multiple model families and reasoning benchmarks, we find that steering a single reasoning-related latent feature can substantially improve accuracy without explicit CoT prompting. For large models, latent steering achieves performance comparable to standard CoT prompting while producing more efficient outputs. We further observe that this reasoning-oriented internal state is triggered early in generation and can override prompt-level instructions that discourage explicit reasoning. Overall, our results suggest that multi-step reasoning in LLMs is supported by latent internal activations that can be externally activated, while CoT prompting is one effective, but not unique, way of activating this mechanism rather than its necessary cause.
研究动机与目标
- 研究大语言模型中的多步推理是否与显式CoT提示之外的潜在内部机制相关。
- 通过基于两阶段SAE的流程识别与推理相关的潜在特征。
- 展示对特定潜在特征进行定向引导对多个模型与基准的推理准确性的因果影响。
提出的方法
- 使用两阶段流程:(i) 通过将标记激活投射到预训练的稀疏自编码器(SAE)以获得稀疏潜在特征;(ii) 通过在第一生成步骤注入定向潜在引导进行因果验证。
- 在早期生成步骤聚合潜在特征,并在直接提示与CoT提示下比较激活,以识别与推理相关的特征。
- 对选定潜在特征应用加法、预激活的引导干预,随后进行残差注入以尽量减少重建偏差。
- 通过对训练数据的单一特征扰动评估干预敏感性,并在保持集上的测试集上确认效果。
- 评估时序与时延:在生成初期进行引导通常效果更好,特征在早期达到峰值后再逐渐衰减。
- 在多达70B的模型族中比较引导与CoT提示,展示经引导的直接提示在较少符号下也可达到或超过CoT的性能。
实验结果
研究问题
- RQ1是否可以在不使用显式CoT提示的情况下,通过引导潜在内部特征来触发潜在推理的内部机制?
- RQ2是否存在少量对推理准确性有因果影响的潜在特征,其激活在被引导时会提升推理能力?
- RQ3在精度和符号效率方面,潜在引导与链路思维提示在不同模型规模上的对比如何?
- RQ4在生成过程的何时阶段应用引导能获得最大效果,且是否覆盖提示层级的指示?
- RQ5引导效应是否对不同提示风格和模型族具有泛化性?
主要发现
- 通过SAE识别的一小组潜在特征与推理行为存在因果关联。
- 在第一生成步骤对单个潜在特征进行引导即可在若干基准上将推理准确性提升到与CoT提示相当或更高的水平。
- 潜在引导通常在较大模型中带来比显式CoT更短的推理轨迹。
- 与推理相关的内部状态在生成早期被触发,能够覆盖不鼓励显式推理的提示。
- 早期、定向的干预比晚期或广泛的激活更有效。
- 在六大模型族群(最高70B)中,潜在引导在GSM8K、GPQA和BBH基准上表现出稳健的改进,且效果因任务对多步推理的依赖性而异。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。