[論文レビュー] Mitigating Large Language Model Hallucinations via Autonomous Knowledge Graph-based Retrofitting
KGR は推論中の事実的幻覚を抑制するために、知識グラフの事実を用いて LLM の下書き応答を自動的に再適合させ、事実問答ベンチマークでの正確性を向上させる。
Incorporating factual knowledge in knowledge graph is regarded as a promising approach for mitigating the hallucination of large language models (LLMs). Existing methods usually only use the user's input to query the knowledge graph, thus failing to address the factual hallucination generated by LLMs during its reasoning process. To address this problem, this paper proposes Knowledge Graph-based Retrofitting (KGR), a new framework that incorporates LLMs with KGs to mitigate factual hallucination during the reasoning process by retrofitting the initial draft responses of LLMs based on the factual knowledge stored in KGs. Specifically, KGR leverages LLMs to extract, select, validate, and retrofit factual statements within the model-generated responses, which enables an autonomous knowledge verifying and refining procedure without any additional manual efforts. Experiments show that KGR can significantly improve the performance of LLMs on factual QA benchmarks especially when involving complex reasoning processes, which demonstrates the necessity and effectiveness of KGR in mitigating hallucination and enhancing the reliability of LLMs.
研究の動機と目的
- 多段階推論におけるLLMの事実的幻覚を動機づけ、対処する。
- 知識グラフを用いて事実表現を自動的に抽出・検証・再適合するフレームワークを提案する。
- さまざまな推論の複雑さを持つ複数のLLMおよび事実問答ベンチマークにおける有効性を示す。
- 追加の手動作業なしで動作でき、異なるモデルサイズとアラインメントに一般化できることを示す。
提案手法
- 知識グラフベースのリトフィティング(KGR)を導入し、KGの事実を用いてLLMの下書き応答を繰り返し再適合させる。
- 下書き応答を主張抽出を通じて原子級の事実主張に分解する。
- 主張の中の重要なエンティティを検出し、対応するKGサブグラフを取得する。
- 長い文脈制約の中で関連するKGトリプルを選択する事実セレクターを使用する。
- 各主張をKG知識と照合し、LLM生成の改訂提案を通じてリトフィットを提案する。
- 抽出-検出-選択-検証-リトフィティングを反復し、すべての事実をKGデータに合わせる。
実験結果
リサーチクエスチョン
- RQ1自律的なKGベースのリトフィングは、単純なタスクと複雑なタスクの両方において、LLM推論における事実的幻覚を軽減できるか。
- RQ2KGRは、取得ベースのベースラインと比較して、異なるLLMと知識領域でどのように性能を発揮するか。
- RQ3主張抽出、エンティティ検出、事実選択のボトルネックは何で、それらが正確さにどのように影響するか。
- RQ4反復的なリトフィティングは、オープンドメインのマルチホップQA(例: HotpotQA)における信頼性を向上させるか。
主な発見
- KGRは、3つのデータセットで事実問答の性能を大幅に向上させ、特に複雑な推論で効果が高い。
- KGRはCoTおよびCRITICのベースラインを評価されたデータセットとモデルタイプ全体で上回る。
- KG証拠と検証の連鎖による事実検証がMintakaとHotpotQAの性能を向上させる。
- KGRはコンパクトなLM(Vicuna 13B)およびアラインメント済みおよびずれたLLMの両方への一般化を示す。
- エラー分析はエンティティ検出と事実選択を主要なボトルネックとして特定し、改善が必要である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。