QUICK REVIEW

[論文レビュー] The Internal State of an LLM Knows When It's Lying

Amos Azaria, Tom M. Mitchell|arXiv (Cornell University)|Apr 26, 2023

Topic Modeling被引用数 15

ひとこと要約

この論文は SAPLMA を提示します。これは LLM の隠れ層活性を用いて文が真か偽かを予測する軽量分類器で、複数のトピックとモデルに渡って prompting ベースラインを上回ります。

ABSTRACT

While Large Language Models (LLMs) have shown exceptional performance in various tasks, one of their most prominent drawbacks is generating inaccurate or false information with a confident tone. In this paper, we provide evidence that the LLM's internal state can be used to reveal the truthfulness of statements. This includes both statements provided to the LLM, and statements that the LLM itself generates. Our approach is to train a classifier that outputs the probability that a statement is truthful, based on the hidden layer activations of the LLM as it reads or generates the statement. Experiments demonstrate that given a set of test sentences, of which half are true and half false, our trained classifier achieves an average of 71\% to 83\% accuracy labeling which sentences are true versus false, depending on the LLM base model. Furthermore, we explore the relationship between our classifier's performance and approaches based on the probability assigned to the sentence by the LLM. We show that while LLM-assigned sentence probability is related to sentence truthfulness, this probability is also dependent on sentence length and the frequencies of words in the sentence, resulting in our trained classifier providing a more reliable approach to detecting truthfulness, highlighting its potential to enhance the reliability of LLM-generated content and its practical applicability in real-world scenarios.

研究の動機と目的

自信を伴う発語による誤情報のリスクを動機づけて定量化する。
ファインチューニングを行わずに、LLM の内部状態から真偽信号を抽出する手法（SAPLMA）を提案する。
一般化可能性と堅牢性を評価するため、トピックとアーキテクチャを横断して SAPLMA を評価する。
真偽データセットを公開し、信頼性向上のための LLM システムとの実用的な統合可能性を示す。

提案手法

LLM の隠れ層活性に対して、単純な3層のフィードフォワード分類器を訓練する。
分類器の入力として、複数の候補層（最終層、28層目、24層目、20層目、中間層など）を評価する。
6つのトピックにまたがる真偽文のデータセットを用い、テスト時に保持アウトされたトピックを除くすべてのトピックで訓練する。
ベースラインとして BERT 埋め込みや few-shot prompting を含め、SAPLMA と比較する。
LLM 自身によって生成された文に対して評価し、内部真偽信号を検出する。

実験結果

リサーチクエスチョン

RQ1LLM の隠れ層活性は、文が真か偽かを明らかにすることができるか？
RQ2トピックとモデル系にわたる真偽検出において、SAPLMA は prompting ベースのベースラインと比べてどの程度の性能か？
RQ3異なる LLM に対して、どの隠れ層表現が真偽信号を最もよく符号化するか？
RQ4訓練時に見られなかったトピックへ一般化した場合、SAPLMA の性能は維持されるか？
RQ5LLM 自身によって生成された文に対して、外部ソースの真偽文と比べて SAPLMA の性能はどうか？

主な発見

SAPLMA は 6つのトピックすべてで、BERT 埋め込みおよび few-shot prompting のベースラインを一貫して上回る。
OPT-6.7b では 60%–80% の精度、LLAMA2-7b では 70%–90% の精度を達成。
OPT-6.7b では20層目が最良の結果を出すことが多い一方、LLAMA2-7b モデルはトピックと設定に応じて中間層または高層が有利である。
OPT-6.7b の20層目を使用する場合の平均訓練精度は 86.4% で、LLM に内部真偽表現が検出可能であることを示唆する。
全文に対する LLM が出す確率は構文や長さの影響を大きく受けるが、SAPLMA のシグモイド出力は真偽値とより一致する（例：14件の保持アウト文の集合で）。
LLM 自身によって生成された文に適用すると、SAPLMA は依然としてベースラインを上回るが、外部ソースの真偽データより絶対精度は低くなる（設定によっては70%程度の範囲）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。