[論文レビュー] Factuality of Large Language Models: A Survey
大規模言語モデル(LLMs)における事実性の包括的な調査で、評価ベンチマーク、データセット、事実性向上手法、テキストおよびマルチモーダル出力にわたる未解決課題を詳述する。
Large language models (LLMs), especially when instruction-tuned for chat, have become part of our daily lives, freeing people from the process of searching, extracting, and integrating information from multiple sources by offering a straightforward answer to a variety of questions in a single place. Unfortunately, in many cases, LLM responses are factually incorrect, which limits their applicability in real-world scenarios. As a result, research on evaluating and improving the factuality of LLMs has attracted a lot of attention recently. In this survey, we critically analyze existing work with the aim to identify the major challenges and their associated causes, pointing out to potential solutions for improving the factuality of LLMs, and analyzing the obstacles to automated factuality evaluation for open-ended text generation. We further offer an outlook on where future research should go.
研究の動機と目的
- LLMsの事実性エラーを引き起こす主な課題を特定し、それを幻覚、関連性、信頼性といった関連概念と区別する。
- オープンエンドのテキスト生成における事実性を評価するために用いられるデータセット、指標、ベンチマークを体系的にレビューする。
- 事前学習、微調整、推論、後処理を含むモデルライフサイクル全体で事実性を改善する手法を調査する。
- 実用的で自動的な事実確認パイプラインとその限界を論じ、マルチモーダルLLMsにおけるクロスモダリティの事実性を含む。
提案手法
- 事実性エラーの原因を特定するために既存の研究を批判的に分析し、評価アプローチと改善戦略を分類する。
- 事実性と幻覚、関連性、信頼性を比較し、研究者と実務家のための区別を明確にする。
- データ形式(生成 vs. 判別)別にデータセットと指標を整理し、自動評価と人間評価のトレードオフを論じる。
- 事実エラーを軽減する事前学習、チューニング/RLXF、および検索強化手法を要約し、ボトルネックと潜在的な解決策を強調する。
- 推論時の事実性に影響を与えるデコーディング、インコンテキスト学習、および自己推論技術を概説する。
- 自動事実確認アーキテクチャと事実性を評価・改善する際の実践的考慮事項を検討する。

実験結果
リサーチクエスチョン
- RQ1LLMsにおける事実性エラーの根本的要因は何で、それらは幻覚、関連性、信頼性とどのように関連するのか?
- RQ2事実性データセットと評価指標はデータ形式別にどのように整理されており、オープンエンド生成における制限は何か?
- RQ3事実性を最も改善するライフサイクル戦略(事前学習、微調整、検索拡張、推論)は何か、残るボトルネックは何か?
- RQ4オープンエンドテキストとマルチモーダル出力の自動事実確認パイプラインの実用的なアーキテクチャと課題は何か?
- RQ5将来のLLMにおける事実性研究を導くべき未解決の問題と有望な方向性は何か?
主な発見
- 事実性と幻覚は関連するが異なる概念である;事実性は世界知識や信頼できる情報源との整合性に焦点を当てる。
- 事実性のデータセットは回答空間(オープンエンド、はい/いいえ、短文、選択式)で分類され、長文テキストの自動評価には課題がある。
- リトリーバル拡張生成とインコンテキスト知識編集は事実性を高める一般的な戦略だが、待機時間やデータ要件などのトレードオフがある。
- 自動的な事実確認デバイスは事実エラーの検出と修正を支援できるが、現行の検証器(GPT-4ベースであっても)は完全な精度には達しておらず、人間のラベルと完全には一致していない。
- マルチモーダルLLMsは追加のグラウンディング課題を導入し、テキストから視覚・聴覚へと拡張した並行アプローチがあり、後付けグラウンディング法は潜在力を示す一方で、計算コストとデータ収集コストが高い。
- 主要な未解決課題には自動評価の難しさ、言語モデリングの目的と事実性の根本的な不整合、そして拡張性が高く信頼できる事実確認パイプラインの必要性が含まれる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。