[論文レビュー] FELM: Benchmarking Factuality Evaluation of Large Language Models
FELMは長文LLM出力の誤り検出を評価するための複数ドメインのベンチマークを提示し、細かなセグメントレベルの注釈と取得および推論支援の分析を提供する。
Assessing factuality of text generated by large language models (LLMs) is an emerging yet crucial research area, aimed at alerting users to potential errors and guiding the development of more reliable LLMs. Nonetheless, the evaluators assessing factuality necessitate suitable evaluation themselves to gauge progress and foster advancements. This direction remains under-explored, resulting in substantial impediments to the progress of factuality evaluators. To mitigate this issue, we introduce a benchmark for Factuality Evaluation of large Language Models, referred to as felm. In this benchmark, we collect responses generated from LLMs and annotate factuality labels in a fine-grained manner. Contrary to previous studies that primarily concentrate on the factuality of world knowledge (e.g.~information from Wikipedia), felm focuses on factuality across diverse domains, spanning from world knowledge to math and reasoning. Our annotation is based on text segments, which can help pinpoint specific factual errors. The factuality annotations are further supplemented by predefined error types and reference links that either support or contradict the statement. In our experiments, we investigate the performance of several LLM-based factuality evaluators on felm, including both vanilla LLMs and those augmented with retrieval mechanisms and chain-of-thought processes. Our findings reveal that while retrieval aids factuality evaluation, current LLMs are far from satisfactory to faithfully detect factual errors.
研究の動機と目的
- 事実性評価を世界知識だけでなく五つのドメインへ拡張する: 世界知識、科学技術、数学、執筆と推奨、そして推論。
- 評価者開発を導くため、事実性・誤りタイプ・理由・参照を含む細粒度のセグメントレベル注釈を提供する。
- 評価には取得と連鎖思考技術を用いた、ヴァニラおよび拡張型のLLMベース事実性評価者を評価する。
- 高品質で説明可能な事実判断を保証するため、堅牢な注釈および検証ワークフローを確立する。
提案手法
- 五つのドメインにわたる多様な情報源からプロンプトを収集し、ChatGPTを用いてゼロショット応答を生成する。
- 文章ベースまたはGPT支援法を用いて、応答を細かなテキスト区間に分割する。
- 専門の注釈者を通じて、各セグメントに事実性ラベル、誤りタイプ、理由、参照リンクを付与する。
- ヴァニラ、チェーン・オブ・思考、参照リンク、参照文書を拡張した評価者を用いて、複数のLLMバックボーン(Vicuna-33B、ChatGPT、GPT-4)に跨り、セグメントレベルおよび応答レベルの事実性を評価する。
- セグメントベース評価と主張ベース評価のアプローチを比較し、ドメイン特有の性能と拡張効果を分析する。
実験結果
リサーチクエスチョン
- RQ1FELMの多ドメイン・セグメントレベル注釈は、長文LLM出力に含まれる事実誤りを信頼性高く検出できるか。
- RQ2ヴァニラ、チェーン・オブ・思考、取得拡張型評価者は、ドメイン横断でFELM上でどのように性能を発揮するか。
- RQ3セグメントベース評価と主張ベース評価は、異なるドメインとモデルでより良い事実性検出をもたらすか。
- RQ4取得リンクや文書は、LLM評価者の事実性検出に測定可能な利得をもたらすか。
- RQ5現行のLLMによる事実性評価の限界と、ドメイン依存の課題は何か。
主な発見
- 事実誤り検出は依然として困難であり、GPT-4ベースの評価者はある設定で他を上回るが全体としては依然苦戦している。
- 取得拡張型評価者(参照リンクおよび文書の両方)はF1スコアを改善し、参照文書の拡張が顕著な利得をもたらす。
- チェーン・オブ・思考プロンプトはGPT-4には有効だが、安定してGPT-3.5/ChatGPTには効果が見られず、ただし自己整合性がCotの性能を向上させることがある。
- 世界知識と推論のドメインは、拡張とCotによってより良い利得を得やすいが、長い応答とまれな誤りのため、推奨/執筆ドメインは依然難しい。
- 外部ツールなしで評価した場合、ChatGPT検出器はFELMでしばしば性能が低く、評価における外部証拠の必要性を強調する。
- Vicuna-33Bベースの検出器はセグメントレベルの性能で競合するが、バランス精度はほぼランダムに近い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。