[論文レビュー] FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios
FacToolは、ツールを活用した、タスクとドメインに依存しないフレームワークを提示します。大規模言語モデルの出力における事実誤認を、知識ベースのQA、コード生成、数学、科学文献レビューで検出するため、主張を抽出し、ツールを照会し、証拠を収集し、一致を検証します。
The emergence of generative pre-trained models has facilitated the synthesis of high-quality text, but it has also posed challenges in identifying factual errors in the generated text. In particular: (1) A wider range of tasks now face an increasing risk of containing factual errors when handled by generative models. (2) Generated texts tend to be lengthy and lack a clearly defined granularity for individual facts. (3) There is a scarcity of explicit evidence available during the process of fact checking. With the above challenges in mind, in this paper, we propose FacTool, a task and domain agnostic framework for detecting factual errors of texts generated by large language models (e.g., ChatGPT). Experiments on four different tasks (knowledge-based QA, code generation, mathematical reasoning, and scientific literature review) show the efficacy of the proposed method. We release the code of FacTool associated with ChatGPT plugin interface at https://github.com/GAIR-NLP/factool .
研究の動機と目的
- 事実性検出を単一タスクの前提を超えて、マルチタスク・マルチドメインの状況へ拡張する。
- ツールの利用(検索エンジン、インタプリタ、LLMs)を活用して、生成された主張を支持または反証する証拠を収集する。
- ドメインを横断する主張の抽出、照会、証拠の収集、合意検証を統一的に行うパイプラインを開発する。
- 知識ベースの QA、コード生成、数学の問題解決、科学文献レビュ執筆の4つのタスクで評価する。
- コードを公開し、ファクト性検出におけるベースラインに対するGPT-4ベースの優位性を示す。
提案手法
- ツール使用と事実性チェックを結びつける汎用的な事実性フレームワークを定義する。
- タスク固有の定義に導かれた、生成応答から微細な主張(ACU)を抽出する。
- 主張からクエリを生成して外部ツールを照会し、証拠を集める。
- 実行/証拠(テストケース、Google Scholarの結果など)を用いて主張を検証する。
- LLMsとの合意検証のためにゼロショットCoT推論を適用する。
- 4つのタスクを用いて評価し、Self-Checkベースラインと比較する。

実験結果
リサーチクエスチョン
- RQ1統一されたフレームワークを用いて、FacToolは多様なタスク(KB-QA、コード、数学、Sci-Lit)における事実誤りを検出できるか?
- RQ2ツール支援による事実性検出は、LLMsを用いたSelf-Checkベースラインと比較してどうか?
- RQ3GPT-4搭載のFacToolは、マルチドメインの事実性検出においてChatGPT搭載バリアントを上回るか?
- RQ4主張抽出の品質が最終的な事実性判断に及ぼす影響はどの程度か?
- RQ5外部証拠(ウェブ検索、コード実行、Google Scholar)は、ドメイン横断の事実性判断を支持するうえでどれだけ有効か?
主な発見
- GPT-4搭載のFacToolは、KB-QA、コード、数学、Sci-Litタスクにおいて、主張レベルのF1が最も高く、応答レベルのF1はベースラインと比べて競争力がある、あるいは優れている。
- ほとんどのシナリオでGPT-4ベースのFacToolは、ChatGPTベースのFacToolおよびSelf-Checkベースラインを上回り、特に科学文献レビューと数学の問題解決で顕著。
- Self-checkベースラインは精度が低い傾向があり、事実性判断の偽陽性率が高いことを示す。
- Google Scholarベースの証拠はSci-Litの引用で堅牢で、証拠収集においてLLMのみのアプローチを上回ることが多い。
- ChatGPTによる主張抽出は、RoSEベースの評価で人間が注釈した原子内容単位(ACUs)と高い類似性を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。