QUICK REVIEW

[論文レビュー] Enabling Large Language Models to Generate Text with Citations

Tianyu Gao, H. W. Yen|arXiv (Cornell University)|May 24, 2023

Topic Modeling被引用数 10

ひとこと要約

ALCEを紹介。引用付きのLLMジェネレーションを評価する初の自動ベンチマークであり、引用の質と正確性を向上させるための検索と prompting 戦略を分析する。

ABSTRACT

Large language models (LLMs) have emerged as a widely-used tool for information seeking, but their generated outputs are prone to hallucination. In this work, our aim is to allow LLMs to generate text with citations, improving their factual correctness and verifiability. Existing work mainly relies on commercial search engines and human evaluation, making it challenging to reproduce and compare different modeling approaches. We propose ALCE, the first benchmark for Automatic LLMs' Citation Evaluation. ALCE collects a diverse set of questions and retrieval corpora and requires building end-to-end systems to retrieve supporting evidence and generate answers with citations. We develop automatic metrics along three dimensions -- fluency, correctness, and citation quality -- and demonstrate their strong correlation with human judgements. Our experiments with state-of-the-art LLMs and novel prompting strategies show that current systems have considerable room for improvement -- For example, on the ELI5 dataset, even the best models lack complete citation support 50% of the time. Our analyses further highlight promising future directions, including developing better retrievers, advancing long-context LLMs, and improving the ability to synthesize information from multiple sources.

研究の動機と目的

すべての生成文に引用を要求することで、LLM 出力の信頼性と検証可能性を促進する。
引用されたパッセージの検索・統合・引用を包括する、再現性のあるエンドツーエンドのベンチマークを提供する。
人間の評価と相関する流暢さ・正確さ・引用品質の自動指標を開発する。
最先端のLLMと prompting 戦略を評価し、ギャップと今後の方向性を特定する。

提案手法

ALCE を、引用ベースの生成を可能にする3データセット（ASQA、QAMPARI、ELI5）と100語のパッセージコーパスで定義する。
三つの評価次元を使用する：流暢さ（MAUVE）、正確さ（データセット固有の指標および主張/真NLIベースの検査）、引用品質（NLIベースの検査による引用リコールと精度）。
検索（密集型・BM25）と統合方法（Vanilla、Summ/Snippet、InlineSearch、Interact）を提案し、文ごとに最大三つの引用を含むテキストを生成する。
引用品質を高めるためのポスト編集戦略（Rerank、PostCite）を組み込む。
自動指標を検証し、ALCEスコアとの相関を分析するための人間評価を実施する。

実験結果

リサーチクエスチョン

RQ1現在のLLMは、多様なデータセットにわたり、根拠となる引用を伴う長文をどれだけ上手く生成できるか。
RQ2正確性と引用品質を最も改善する検索と prompting 戦略は何か。
RQ3正確で関連性の高い引用を伴うテキスト生成における主なボトルネックは何か。
RQ4流暢さ・正確さ・引用品質の自動指標は、どの程度人間の判断と相関するか。

主な発見

すべてのモデルが流暢で一貫したテキストを生成するが、正確性と引用品質にはなお改善の余地が大きい。
Rerank は ASQA および ELI5 データセット全体で引用品質を一貫して改善する。
Vanilla prompting（文脈中の上位k件の取得パッセージ）は、引用品質の点で、より複雑なオンザフライ取得よりもしばしば上回る。
要約やスニペットはパッセージ長を短縮し正確性を改善することがあるが、情報の損失圧縮により引用品質を低下させる可能性がある。
GPT-4 は長い文脈窓の利点を示し、より多くのパッセージの使用を可能にする一方で、小型モデルは複数ソースの統合に苦戦する。
高い取得品質とより長い文脈能力は、生成の正確性と引用信頼性を向上させるために不可欠である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。