[論文レビュー] Recitation-Augmented Language Models
RECITEは自己の記憶からパッセージを朗読し、それから回答を生成するリサイト・アンド・アンサー(recite-and-answer)パラダイムを導入し、外部検索なしで複数のデータセットとモデル系にわたるクローズドブックQAの性能を改善する。
We propose a new paradigm to help Large Language Models (LLMs) generate more accurate factual knowledge without retrieving from an external corpus, called RECITation-augmented gEneration (RECITE). Different from retrieval-augmented language models that retrieve relevant documents before generating the outputs, given an input, RECITE first recites one or several relevant passages from LLMs' own memory via sampling, and then produces the final answers. We show that RECITE is a powerful paradigm for knowledge-intensive NLP tasks. Specifically, we show that by utilizing recitation as the intermediate step, a recite-and-answer scheme can achieve new state-of-the-art performance in various closed-book question answering (CBQA) tasks. In experiments, we verify the effectiveness of \method~on four pre-trained models (PaLM, UL2, OPT, and Codex) and three CBQA tasks (Natural Questions, TriviaQA, and HotpotQA). Our code is available at "https://github.com/Edward-Sun/RECITE".
研究の動機と目的
- 外部検索を用いずに、知識集約型タスクにおける事実正確性を向上させる動機。
- QAを、リサイト(メモリベースの検索)ステップと最終的な回答生成ステップに分解する。
- 多様な大規模言語モデルおよびCBQAデータセットに渡る有効性を実証。
- 多様化されたリサイテーション、自己結合性、およびリサイテーション品質向上のためのファインチューニングによる改善を探る。
提案手法
- モデルの記憶からの知識リサイテーションと、それに続くタスク実行による回答を行う、2段階のRECITEフレームワークを提案。
- 質問-回答の例を条件として、プロンプトベースのインコンテキスト学習を用いてリサイテーションを生成する。
- 複数のリサイテーションと多数決投票による自己整合性を適用し、最終回答を選択する。
- 複数のリサイト・アンド・アンサーを拡張してマルチホップ質問を扱い、複数のリサイテーションから情報を結合する。
- 証拠の多様性と事実性を向上させるため、パッセージヒントベースの多様化リサイテーションを導入。
- 質問・ヒント・パッセージの合成ペアでLLMをファインチューニングし、質問とリサイテーションおよびパッセージの対応をより適切にする。
実験結果
リサーチクエスチョン
- RQ1外部検索なしで、RECITEがクローズドブックQAを複数データセットとモデルスケールにわたり改善できるか?
- RQ2RECITEにおける自己整合性と多様化リサイテーションが回答の質と頑健性に与える影響は?
- RQ3知識集約タスクにおけるRECITEは、検索ベースおよび連鎖的思考ベースラインとどう比較されるか?
- RQ4合成された質問・ヒント・パッセージデータでのファインチューニングはリサイテーションの有効性をさらに高めるか?
- RQ5Natural Questions、TriviaQA、HotpotQAなどのデータセットで、シングルホップとマルチホップの質問でRECITEはどう機能するか?
主な発見
- RECITEはrecite-and-answerを用いると、PaLM、UL2、OPT、Codexなどの複数モデルおよびCBQAデータセットにおいて、標準プロンプティングより測定可能な改善をもたらす。
- PaLM-62Bでは、多様化されたリサイテーションと多様化パッセージリサイテーションがNatural Questionsの性能をさらに高める。
- 自己整合性(マルチパスリサイテーション)は一般に回答の正確性を高め、リサイテーションを増やすと一定点までより良い結果になる。
- RECITEは検証設定では、マルチホップQA(HotpotQA)において、一部の連鎖思考ベースラインを上回ることがある。
- リサイテーションベースのアプローチは外部検索なしでも競争力のある結果を示し、文脈によってはBM25検索ベースラインに匹敵するか接近することが多い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。