QUICK REVIEW

[論文レビュー] DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models

Yung-Sung Chuang, Yujia Xie|arXiv (Cornell University)|Sep 7, 2023

Topic Modeling被引用数 17

ひとこと要約

DoLaは成熟層と未成熟層のロジットを対比させてデコードし、外部取得やファインチューニングを用いずに事実的知識を引き出す層を動的に選択して幻覚を減らす。複数のタスクで真実性を向上させつつ、遅延を最小限にする。

ABSTRACT

Despite their impressive capabilities, large language models (LLMs) are prone to hallucinations, i.e., generating content that deviates from facts seen during pretraining. We propose a simple decoding strategy for reducing hallucinations with pretrained LLMs that does not require conditioning on retrieved external knowledge nor additional fine-tuning. Our approach obtains the next-token distribution by contrasting the differences in logits obtained from projecting the later layers versus earlier layers to the vocabulary space, exploiting the fact that factual knowledge in an LLMs has generally been shown to be localized to particular transformer layers. We find that this Decoding by Contrasting Layers (DoLa) approach is able to better surface factual knowledge and reduce the generation of incorrect facts. DoLa consistently improves the truthfulness across multiple choices tasks and open-ended generation tasks, for example improving the performance of LLaMA family models on TruthfulQA by 12-17% absolute points, demonstrating its potential in making LLMs reliably generate truthful facts.

研究の動機と目的

大規模言語モデル（LLMs）における事実性と幻覚の課題を動機づけ、検索や微調整に頼らないデコード時解法を探る。
高層に埋め込まれた事実的知識を強調し、低層の言語的手掛かりを低減する、動的な層対比デコード法（DoLa）を提案する。
表層の事実性の改善が、LLaMAファミリーモデルの選択肢問題および自由回答タスクで真実性を高めることを、遅延の影響を抑えつつ示す。

提案手法

最終層（成熟層）と選択された初期層（未成熟層）の両方について、モデルの語彙ヘッドを用いて次トークン分布を計算する。
候補の早期層の間で q_N(·|x_<t) と q_j(·|x_<t) のJensen-Shannon発散を最大化することで、未成熟層 M を動的に選択する。
層対比関数 F(q_N, q_M) によってDoLa確率を形成し、未成熟層のロジットを成熟層のロジットから差し引き、妥当性でフィルタリングされた語彙サブセットに対してsoftmaxを適用する。
成熟層の高確率トークンが有効であり続けるよう適応的妥当性制約を適用し、デコード時には反復ペナルティを導入する。
動的アプローチの頑健性を示すために、静的な未成熟層の選択（DoLa-static）と比較することも可能。
TruthfulQA、FACTOR、StrategyQA、GSM8K、GPT-4評価済み Vicuna ベンチマークを、LLaMA-7B、-13B、-33B、-65Bモデルで実験的に検証する。

実験結果

リサーチクエスチョン

RQ1外部知識やファインチューニングを用いずに、層を対比してデコードすることはLLMの幻覚を減らすか？
RQ2層ごとの分布距離による動的な未成熟層の選択は、複数のタスクとモデルサイズに渡って事実性を頑健に向上させるか？
RQ3事実性・推論タスク・自由回答生成におけるDoLaとContrastive Decoding（CD）および静的層ベースの基線との相対的な性能はどのようか？

主な発見

モデル	TruthfulQA	FACTOR MC1	FACTOR MC2	FACTOR MC3	ニュース
LLaMa-7B	25.6	40.6	19.2	58.3	58.6
+ ITI	25.9	-	-	-	-
+ DoLa	32.2	63.8	32.1	62.0	62.2
LLaMa-13B	28.3	43.3	20.8	61.1	62.6
+ CD	24.4	41.0	19.0	62.3	64.4
+ DoLa	28.9	64.9	34.8	62.5	66.2
LLaMa-33B	31.7	49.5	24.2	63.8	69.5
+ CD	33.0	51.8	25.7	63.3	71.3
+ DoLa	30.5	62.3	34.0	65.4	70.3
LLaMa-65B	30.8	46.9	22.7	63.6	72.2
+ CD	29.3	47.0	21.5	64.6	71.3
+ DoLa	31.1	64.6	34.3	66.2	66.2 or 72.4

DoLaはLLaMAモデルの択一問題と自由回答タスクの真実性を一貫して改善し、TruthfulQAとFACTORで顕著な向上を示す。
自由回答のTruthfulQAでは、4つのLLaMAサイズで%Truth×%Infoを12-17%向上させ、監督付きラベルなしでITIに近い性能を示す。
最大JSDによる動的未成熟層選択は、事実量の多いタスクには上位層を、長文完結には下位層を選択し、データセットを横断して堅牢な改善をもたらす。
DoLaはデコード遅延の増分をおよそ1.01x〜1.08xにとどめ、LLaMA系以外のモデル（例：MPT-7B）にもいくつか例外を除き一般化する。
推論タスク（StrategyQA、GSM8K）ではDoLaは性能を向上または維持する一方、CDは特定の設定で推論を損なうことがある。
DoLa-staticはデータ分布間での頑健性が低く、検証がより広範囲を要する一方、動的DoLaは分布内検証の必要性を低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。