[論文レビュー] The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets
この論文は、LLM表現が真実を線形方向としてエンコードすることを示し、データセットを横断する線形真実プローブの転送性を実証し、ターゲット介入による因果的証拠を提供する;また、mass-mean probing を頑健なプロービング手法として導入している。
Large Language Models (LLMs) have impressive capabilities, but are prone to outputting falsehoods. Recent work has developed techniques for inferring whether a LLM is telling the truth by training probes on the LLM's internal activations. However, this line of work is controversial, with some authors pointing out failures of these probes to generalize in basic ways, among other conceptual issues. In this work, we use high-quality datasets of simple true/false statements to study in detail the structure of LLM representations of truth, drawing on three lines of evidence: 1. Visualizations of LLM true/false statement representations, which reveal clear linear structure. 2. Transfer experiments in which probes trained on one dataset generalize to different datasets. 3. Causal evidence obtained by surgically intervening in a LLM's forward pass, causing it to treat false statements as true and vice versa. Overall, we present evidence that at sufficient scale, LLMs linearly represent the truth or falsehood of factual statements. We also show that simple difference-in-mean probes generalize as well as other probing techniques while identifying directions which are more causally implicated in model outputs.
研究の動機と目的
- LLMs の真実表現を研究するための高品質な事実文の true/false データセットを編成する。
- 真実が LLM 表現において線形方向としてエンコードされているかを調べる。
- 異なるデータセットや文の種類に対する真実プローブの一般化を評価する。
- 特定された真実方向がモデル出力に影響を与えることの因果的証拠を提供する。
- mass-mean probing を、頑健で因果的に関与するプロービング手法として導入する。
提案手法
- LLaMA-13B および LLaMA-2-13B から最終トークン表現のために layer 13 の residual stream 活性化を抽出する。
- PCAを用いて真と偽の文の線形構造を特定するために真偽の区別を可視化する。
- 線形プローブ(ロジスティック回帰、mass-mean probing、CCS)を訓練して、データセット間で真を分類し、他のデータセットへの転送をテストする。
- 隠れ状態の置換や真実方向ベクトルの追加による因果パッチングを実行して、モデル出力に影響を与える。
- 真/偽データセットとおそれられるテキストのプローブ性能を比較して、真実特異的なエンコードを評価する。

実験結果
リサーチクエスチョン
- RQ1LLMs は事実文の真偽値を表す際に線形構造を示すか。
- RQ2あるデータセットで訓練された真実指向プローブは、トピックや構造的特徴が異なる他のデータセットに一般化するか。
- RQ3特定された真実方向に対する因果的介入が、モデル出力を意味的に変更するか。
- RQ4mass-mean probing は、従来のプローブより一般化と因果媒介において利点があるか。
主な発見
- PCA の可視化は、上位主成分において真と偽の文の明確な線形分離を示している。
- 1つのデータセットで訓練されたプローブは他のデータセットにも一般化し、真実方向が転送可能であることを示している。
- 真実方向に沿った因果介入は、モデルの真と偽の文の扱いを大幅に変更しうる。
- Mass-mean probing はより良く一般化し、ロジスティック回帰や CCS よりも出力への因果関与が高い。
- 真/偽データセットで訓練されたプローブは、likely text で訓練されたものよりモデル予測の媒介において優れている。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。