Skip to main content
QUICK REVIEW

[論文レビュー] The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

Junyi Li, Jie Chen|arXiv (Cornell University)|Jan 6, 2024
Topic Modeling被引用数 7
ひとこと要約

本論文は HaluEval 2.0 を構築して LLMs における事実性の幻覚を研究し、二段階検出フレームワークを提案し、トレーニングと使用段階における幻覚の源を分析し、緩和技術を評価する。

ABSTRACT

In the era of large language models (LLMs), hallucination (i.e., the tendency to generate factually incorrect content) poses great challenge to trustworthy and reliable deployment of LLMs in real-world applications. To tackle the LLM hallucination, three key questions should be well studied: how to detect hallucinations (detection), why do LLMs hallucinate (source), and what can be done to mitigate them (mitigation). To address these challenges, this work presents a systematic empirical study on LLM hallucination, focused on the the three aspects of hallucination detection, source and mitigation. Specially, we construct a new hallucination benchmark HaluEval 2.0, and designs a simple yet effective detection method for LLM hallucination. Furthermore, we zoom into the different training or utilization stages of LLMs and extensively analyze the potential factors that lead to the LLM hallucination. Finally, we implement and examine a series of widely used techniques to mitigate the hallucinations in LLMs. Our work has led to several important findings to understand the hallucination origin and mitigate the hallucinations in LLMs. Our code and data can be accessed at https://github.com/RUCAIBox/HaluEval-2.0.

研究の動機と目的

  • 事前学習、教師付きファインチューニング、RLHF、推論を横断して、なぜLLMが幻覚を起こすのか(源泉)を調査する。
  • LLMの出力に対する信頼性の高い幻覚検出フレームワークを開発・検証する。
  • 共通の緩和戦略(RLHF、取得強化、セルフリフレクション、デコーディング、プロンプト設計)の有効性を領域横断で分析する。
  • データとトレーニングの選択がLLMの事実性に与える影響について領域特有の知見を提供する。

提案手法

  • biomedicine, finance, science, education, and open domain を含む 8,770 問の HaluEval 2.0 を構築する。
  • 二段階の検出フレームワークを提案する:応答から事実的な文を抽出し、つぎに LLM を用いて真偽を判断する。
  • オープンソースおよびクローズドソースのLLMをベンチマークで評価する。
  • 前訓練、SFT、プロンプト設計、推論における幻覚に影響を与える要因を体系的に分析する。
  • データの一部で、LLMの判断を人間の注釈と比較して検出の信頼性を評価する。
  • RLHF、取得強化、セルフリフレクション、高度なデコーディング、プロンプト改善などの緩和技術を調査する。

実験結果

リサーチクエスチョン

  • RQ1前訓練、教師付きファインチューニング、プロンプト設計、推論において、領域を横断してLLMの事実性幻覚に影響を与える要因は何か?
  • RQ2提案された二段階の幻覚検出フレームワークは、事実的な誤りを特定する上でどれだけ効果的か?
  • RQ3領域横断で幻覚を最も効果的に低減する緩和戦略はどれか、また領域によって有効性はどう異なるか?
  • RQ4オープンソースとクローズドソースのLLMは、幻覚の傾向と幻覚を認識する能力の点でどう比較されるか?

主な発見

  • Pre-training: トークン数が増えることは幻覚に対して限定的または振動的な影響を持つ; 専門データをプリトレーニングに組み込むことは、領域特有の幻覚を著しく低減できる。
  • Fine-tuning: 改善された指示は幻覚を減らすのに役立つ; 指示の複雑さのバランスが有益で、過度に複雑なプロンプトは幻覚を増やす可能性がある; RLHF の有効性は領域により異なる。
  • Inference: 多様性志向のデコーディングは専門領域で幻覚を増やす可能性がある; トークンごとの生成は先行の誤りを強化する; 量子化は幻覚を増加させる可能性がある。
  • Prompt design: 詳細を追加し、インコンテキスト学習を活用すると幻覚を減らせる; 読みやすく、形式的で具体的な言語は幻覚を減らす; タスク説明の並べ替えは幻覚のレベルに影響を与える。
  • Closed-source models (e.g., ChatGPT, Claude 2) は幻覚率が低いが、オープンドメイン設定で過度に回避することがある; オープンソースモデルはばらつきが大きく、特にオープンドメインの質問で領域特有の幻覚が高い。
  • The detection framework achieves high reliability against human judgments, with matching rates around 92-95% across domains in a human-annotated subset.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。