QUICK REVIEW

[論文レビュー] Active Retrieval Augmented Generation

Zhengbao Jiang, Frank F. Xu|arXiv (Cornell University)|May 11, 2023

Topic Modeling被引用数 17

ひとこと要約

FLAREは、長文生成中にいつ何を取得するかを決定する前向きな活性検索フレームワークを導入し、複数の知識集約タスクにおける事実性と網羅性を向上させます。4つの長文データセットでベースラインと比べて優位または競合する性能を示します。

ABSTRACT

Despite the remarkable ability of large language models (LMs) to comprehend and generate language, they have a tendency to hallucinate and create factually inaccurate output. Augmenting LMs by retrieving information from external knowledge resources is one promising solution. Most existing retrieval augmented LMs employ a retrieve-and-generate setup that only retrieves information once based on the input. This is limiting, however, in more general scenarios involving generation of long texts, where continually gathering information throughout generation is essential. In this work, we provide a generalized view of active retrieval augmented generation, methods that actively decide when and what to retrieve across the course of the generation. We propose Forward-Looking Active REtrieval augmented generation (FLARE), a generic method which iteratively uses a prediction of the upcoming sentence to anticipate future content, which is then utilized as a query to retrieve relevant documents to regenerate the sentence if it contains low-confidence tokens. We test FLARE along with baselines comprehensively over 4 long-form knowledge-intensive generation tasks/datasets. FLARE achieves superior or competitive performance on all tasks, demonstrating the effectiveness of our method. Code and datasets are available at https://github.com/jzbjyb/FLARE.

研究の動機と目的

長文生成中の継続的な情報収集の必要性を動機づけ、幻覚を減らす。
生成中にいつ何を取得するかを決定する汎用の active retrieval フレームワークを提案。
前方視線信号を用いて取得をトリガーしテキストを再生成する FLARE を紹介。
四つの長文知識集約タスクで FLARE を評価し、一般性と有効性を評価する。

提案手法

取得クエリは、前の文脈と出力に基づいて生成される生成ステップで活性化的に生成される活性化検索付き生成を形式化する。
二つの FLARE バリアントを提示：FLARE_instruct は取得指示プロンプトを用いてクエリを誘発し、FLARE_direct は次文生成を用いて取得をトリガー。
FLARE_direct では、一時的な次の文を生成し、信頼度が低い場合に取得をトリガーし、取得した文書で文を再生成。
信頼度/確率閾値を用いて取得を行うタイミング（theta）と取得なしで進むタイミングを決定する。
ノイズを減らすため、低信頼度区間から派生した次の文またはマスク化/明示的な質問に基づいてクエリを定式化する。
オフ・ザ・シェルフのリトリバを用いて評価（WikipediaダンプでBM25；オープンウェブは Bing）、LMとしてGPT-3.5 text-davinci-003 を使用。

実験結果

リサーチクエスチョン

RQ1能動的検索戦略がいつ取得するかを決定することで、長文の知識集約生成を改善できるか？
RQ2異なるクエリ定式化（次の文、マスクされたトークン、明示的な質問）は取得品質と生成忠実度にどのように影響するか？
RQ3過去の文脈をクエリとして使用するより前方視点の取得は、長文生成タスクでより効果的か？
RQ4取得頻度（閾値 theta）の影響は性能と効率にどう影響するか？

主な発見

データセット	EM	F1	Prec.	Rec.
No retrieval	28.2	36.8	36.5	38.6
Single-time retrieval	39.4	48.8	48.6	51.5
Multi-time retrieval (Previous-window)	43.2	52.3	51.7	54.5
Multi-time retrieval (Previous-sentence)	39.0	49.2	48.9	51.8
FLARE_instruct	42.4	49.8	49.1	52.5
FLARE_direct	51.0	59.7	59.1	62.6

FLARE は four long-form knowledge-intensive tasks において、単回取得および多回取得のベースラインより優位または競合する性能を示す。
2WikiMultihopQA では、FLARE_direct が示されたベースラインの中で最高の EM(51.0) と F1(59.7) を達成。
StrategyQA、ASQA、ASQA-hint、WikiAsp では、FLARE 手法がベースラインを上回り、一般性を示す。
前方視点の取得（次の文をクエリとして使用）は、過去の文またはウィンドウを使用する従来の文脈取得を上回る。
低信頼度トークンを取得前にマスクすることで、次の文全体をクエリとして使用するより性能が向上。
低信頼度区間の明示的に生成された質問は、暗黙のマスク化と同等の性能を示し、柔軟なクエリ定式化を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。