[论文解读] The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets
本文显示大语言模型表示将真相编码为一个线性方向,展示线性真相探针在跨数据集上的可迁移性,并通过针对性干预提供因果证据;同时引入 mass-mean probing 作为一种稳健的探针方法。
Large Language Models (LLMs) have impressive capabilities, but are prone to outputting falsehoods. Recent work has developed techniques for inferring whether a LLM is telling the truth by training probes on the LLM's internal activations. However, this line of work is controversial, with some authors pointing out failures of these probes to generalize in basic ways, among other conceptual issues. In this work, we use high-quality datasets of simple true/false statements to study in detail the structure of LLM representations of truth, drawing on three lines of evidence: 1. Visualizations of LLM true/false statement representations, which reveal clear linear structure. 2. Transfer experiments in which probes trained on one dataset generalize to different datasets. 3. Causal evidence obtained by surgically intervening in a LLM's forward pass, causing it to treat false statements as true and vice versa. Overall, we present evidence that at sufficient scale, LLMs linearly represent the truth or falsehood of factual statements. We also show that simple difference-in-mean probes generalize as well as other probing techniques while identifying directions which are more causally implicated in model outputs.
研究动机与目标
- 策划高质量的事实陈述的真/假数据集,以研究大型语言模型中的真理表示。
- 研究真理是否作为线性方向编码在 LLM 表示中。
- 评估真理探针在不同数据集和陈述类型上的泛化。
- 提供因果证据,表明所识别的真理方向会影响模型输出。
- 引入 mass-mean probing 作为一种稳健且具因果关联的探针方法。
提出的方法
- 从 LLaMA-13B 和 LLaMA-2-13B 提取第13层残差流激活,用于最终标记表示。
- 使用 PCA 可视化真/假陈述的分离,识别真与假陈述中的线性结构。
- 训练线性探针(逻辑回归、mass-mean probing、CCS)以在跨数据集上对真值进行分类,并测试对其他数据集的迁移。
- 通过交换隐藏状态或添加面向真理的向量来进行因果补丁,以影响模型输出。
- 比较探针在真/假数据集与可能文本上的表现,以评估真理特定编码。

实验结果
研究问题
- RQ1LLM 是否在表示事实陈述的真值时呈现线性结构?
- RQ2在一个数据集上训练的真理导向探针是否能泛化到具有不同主题或结构特征的其他数据集?
- RQ3对识别出的真理方向进行因果干预是否能显著改变模型输出?
- RQ4mass-mean probing 在泛化和因果中介方面是否优于传统探针?
主要发现
- PCA 可视化在前几个主成分中清晰分离真/假陈述。
- 在一个数据集上训练的探针能泛化到其他数据集,表明真理方向具有可迁移性。
- 沿着真理方向的因果干预可以显著改变模型对真/假陈述的处理。
- Mass-mean probing 的泛化性更好,且在输出的因果介入方面比逻辑回归或 CCS 更具因果关联。
- 在调解模型预测方面,训练于真/假数据集的探针优于在可能文本上训练的探针。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。