QUICK REVIEW

[論文レビュー] FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios

I-Chun Chern, Steffi Chern|arXiv (Cornell University)|Jul 25, 2023

Natural Language Processing Techniques被引用数 25

ひとこと要約

FacToolは、ツールを活用した、タスクとドメインに依存しないフレームワークを提示します。大規模言語モデルの出力における事実誤認を、知識ベースのQA、コード生成、数学、科学文献レビューで検出するため、主張を抽出し、ツールを照会し、証拠を収集し、一致を検証します。

ABSTRACT

The emergence of generative pre-trained models has facilitated the synthesis of high-quality text, but it has also posed challenges in identifying factual errors in the generated text. In particular: (1) A wider range of tasks now face an increasing risk of containing factual errors when handled by generative models. (2) Generated texts tend to be lengthy and lack a clearly defined granularity for individual facts. (3) There is a scarcity of explicit evidence available during the process of fact checking. With the above challenges in mind, in this paper, we propose FacTool, a task and domain agnostic framework for detecting factual errors of texts generated by large language models (e.g., ChatGPT). Experiments on four different tasks (knowledge-based QA, code generation, mathematical reasoning, and scientific literature review) show the efficacy of the proposed method. We release the code of FacTool associated with ChatGPT plugin interface at https://github.com/GAIR-NLP/factool .

研究の動機と目的

事実性検出を単一タスクの前提を超えて、マルチタスク・マルチドメインの状況へ拡張する。
ツールの利用（検索エンジン、インタプリタ、LLMs）を活用して、生成された主張を支持または反証する証拠を収集する。
ドメインを横断する主張の抽出、照会、証拠の収集、合意検証を統一的に行うパイプラインを開発する。
知識ベースの QA、コード生成、数学の問題解決、科学文献レビュ執筆の4つのタスクで評価する。
コードを公開し、ファクト性検出におけるベースラインに対するGPT-4ベースの優位性を示す。

提案手法

ツール使用と事実性チェックを結びつける汎用的な事実性フレームワークを定義する。
タスク固有の定義に導かれた、生成応答から微細な主張（ACU）を抽出する。
主張からクエリを生成して外部ツールを照会し、証拠を集める。
実行/証拠（テストケース、Google Scholarの結果など）を用いて主張を検証する。
LLMsとの合意検証のためにゼロショットCoT推論を適用する。
4つのタスクを用いて評価し、Self-Checkベースラインと比較する。

Figure 1: Tool-augmented framework for factuality detection.

実験結果

リサーチクエスチョン

RQ1統一されたフレームワークを用いて、FacToolは多様なタスク（KB-QA、コード、数学、Sci-Lit）における事実誤りを検出できるか？
RQ2ツール支援による事実性検出は、LLMsを用いたSelf-Checkベースラインと比較してどうか？
RQ3GPT-4搭載のFacToolは、マルチドメインの事実性検出においてChatGPT搭載バリアントを上回るか？
RQ4主張抽出の品質が最終的な事実性判断に及ぼす影響はどの程度か？
RQ5外部証拠（ウェブ検索、コード実行、Google Scholar）は、ドメイン横断の事実性判断を支持するうえでどれだけ有効か？

主な発見

GPT-4搭載のFacToolは、KB-QA、コード、数学、Sci-Litタスクにおいて、主張レベルのF1が最も高く、応答レベルのF1はベースラインと比べて競争力がある、あるいは優れている。
ほとんどのシナリオでGPT-4ベースのFacToolは、ChatGPTベースのFacToolおよびSelf-Checkベースラインを上回り、特に科学文献レビューと数学の問題解決で顕著。
Self-checkベースラインは精度が低い傾向があり、事実性判断の偽陽性率が高いことを示す。
Google Scholarベースの証拠はSci-Litの引用で堅牢で、証拠収集においてLLMのみのアプローチを上回ることが多い。
ChatGPTによる主張抽出は、RoSEベースの評価で人間が注釈した原子内容単位（ACUs）と高い類似性を示す。

Figure 2: Our proposed framework for factuality detection in four domains: knowledge-based QA, code generation, math problem solving and scientific literature review writing.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。