QUICK REVIEW

[論文レビュー] HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

Junyi Li, Xiaoxue Cheng|arXiv (Cornell University)|May 19, 2023

Mental Health via Writing被引用数 29

ひとこと要約

HaluEval は、LLM の幻覚を研究し、さまざまなモデルや戦略による認識を検討するための大規模なベンチマークを提供します（30,000 の幻覚サンプルと 5,000 の注釈付き ChatGPT 応答）。

ABSTRACT

Large language models (LLMs), such as ChatGPT, are prone to generate hallucinations, i.e., content that conflicts with the source or cannot be verified by the factual knowledge. To understand what types of content and to which extent LLMs are apt to hallucinate, we introduce the Hallucination Evaluation benchmark for Large Language Models (HaluEval), a large collection of generated and human-annotated hallucinated samples for evaluating the performance of LLMs in recognizing hallucination. To generate these samples, we propose a ChatGPT-based two-step framework, i.e., sampling-then-filtering. Besides, we also hire some human labelers to annotate the hallucinations in ChatGPT responses. The empirical results suggest that ChatGPT is likely to generate hallucinated content in specific topics by fabricating unverifiable information (i.e., about $19.5\%$ responses). Moreover, existing LLMs face great challenges in recognizing the hallucinations in texts. However, our experiments also prove that providing external knowledge or adding reasoning steps can help LLMs recognize hallucinations. Our benchmark can be accessed at https://github.com/RUCAIBox/HaluEval.

研究の動機と目的

LLM がどのようなタイプの内容を幻覚しがちで、どの程度そうなるのかを理解する。
幻覚サンプルを自動的に生成するための、スケーラブルな二段階のサンプリング-フィルタリング・パイプラインを作成する。
ChatGPT 応答における幻覚のスパンを識別・特定するための人間注釈を提供する。
複数の LLM の、タスク横断的な幻覚の認識能力を評価する（QA、知識に基づく対話、要約）。
幻覚認識を改善するための戦略（知識検索、推論）を提案する。

提案手法

幻覚サンプルを自動的に生成する二段階のサンプリング-フィルタリング・パイプライン。
一般的なクエリ向けの二つのサンプリングスタイル：ワンパスと会話的指示スキーマ。
シードデータセットからの自動生成による 30,000 のタスク特化幻覚サンプル（QA、対話、要約）と、真実値手掛かりによるフィルタリング。
ChatGPT 応答 5,000 件の幻覚について、スパンレベルのラベル付けを伴う人間注釈。
複数の LLM（クローズドソースおよびオープンソース）の幻覚認識能力の評価。
外部知識検索や推論過程（チェーン・オブ・思考）などの改善戦略の分析。

実験結果

リサーチクエスチョン

RQ1LLMs はどのような種類の内容を幻覚し、タスク間でそのような幻覚はどれくらい蔓延しているのか？
RQ2現在の LLM は生成テキストの幻覚をどれだけうまく認識できるか？
RQ3外部知識、推論手順、対比設定は幻覚認識を改善するか？
RQ4幻覚はトピックに敏感か、認識の課題を最も引き起こすトピックはどれか？

主な発見

ChatGPT が生成した幻覚は、一般的な応答のおおよそ 19.5% に発生する。
LLMs は幻覚を認識するのに相当な困難を示し、たとえば ChatGPT は要約で 58.53% の精度、QA-言語タスクで 62.59% の精度を達成し、一部のモデルはほぼランダムに近い。
外部知識を提供すると認識が大幅に改善される（例：知識検索で QA の精度が 76.83% に上昇）。
チェーン・オブ・思考推論は結果が混在している：要約では役立つが、QA と対話では性能を低下させることがある。
真の対照テストは困難で、認識性能を低下させる可能性があり、ベンチマークの難易度を浮き彫りにしている。
トピック分析は、幻覚認識の失敗が特定のトピック（例：映画、技術、言語）に集中し、タスクによって異なることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。