[論文レビュー] Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity
この調査は、大規模言語モデル(LLMs)の事実性を網羅的にレビューし、定義、評価指標、根本原因、一般およびドメイン特化設定の standalone および retrieval-augmented LLMs の強化戦略を扱います。
This survey addresses the crucial issue of factuality in Large Language Models (LLMs). As LLMs find applications across diverse domains, the reliability and accuracy of their outputs become vital. We define the Factuality Issue as the probability of LLMs to produce content inconsistent with established facts. We first delve into the implications of these inaccuracies, highlighting the potential consequences and challenges posed by factual errors in LLM outputs. Subsequently, we analyze the mechanisms through which LLMs store and process facts, seeking the primary causes of factual errors. Our discussion then transitions to methodologies for evaluating LLM factuality, emphasizing key metrics, benchmarks, and studies. We further explore strategies for enhancing LLM factuality, including approaches tailored for specific domains. We focus two primary LLM configurations standalone LLMs and Retrieval-Augmented LLMs that utilizes external data, we detail their unique challenges and potential enhancements. Our survey offers a structured guide for researchers aiming to fortify the factual reliability of LLMs.
研究の動機と目的
- LLMsにおける事実性の問題を定義し、それがドメイン横断的に及ぼす影響を明らかにする。
- LLMsの事実性を測定するために用いられる評価指標、ベンチマーク、研究を調査する。
- 知識の保存、検索、および推論を、事実誤りの根本原因として分析する。
- 単独のLLMsおよび retrieval-augmented LLMSの強化戦略をレビューし、ドメイン特化アプローチを含む。
- LLMsの事実性信頼性を向上させるための構造化ガイドとオープンソース資源を提供する。
提案手法
- 事実性の問題を、単独のLLMsと retrieval-augmented LLMs の設定に分類する。
- LLMsの事実性を測定するために用いられる評価指標とベンチマークを要約し、ルールベース、ニューラル、ヒト、LLMベースの手法を含む。
- モデル、取得、推論レベルでの事実誤りの原因を分析する。
- 事前学習、監視、デコード、検索補強、ドメイン特化適応を横断する強化技術をレビューする。

実験結果
リサーチクエスチョン
- RQ1LLMsにおける事実性とは何か、主要な影響領域は何か?
- RQ2事実性はどのように評価され、どのようなベンチマークと指標が用いられているか?
- RQ3LLMsにおける主な事実誤りの源泉(モデル、検索、推論)は何で、それらはどのように相互作用するか?
- RQ4単独のLLMsおよび retrieval-augmented LLMs の事実性を改善するための戦略は何があり、ドメイン特化の強化を含む?
主な発見
- 知識不足、時代遅れの情報、推論の失敗が、ドメインを問わず事実性の誤りを生み出す。
- 正確一致、確率的キャリブレーション、n-gram 重複、FActScore や GPTベースのジャッジなど、事実性特有のスコアを含む幅広い評価指標が存在する。
- retrieval-augmented LLMs は外部知識源を通じていくつかの事実誤りを緩和できるが、解釈誤りや誤情報といった取得固有の課題を導入する。
- 医療、法、金融などのドメインで専門的なモデルとデータセットを用いた、ドメイン特化の事実性は重要である。
- 本調査は事実性の評価と向上に対して構造化されたアプローチを強調し、継続的な研究のためのオープンソース資料を提供されたGitHubリポジトリで維持している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。