[論文レビュー] Fine-Tuning vs. RAG for Multi-Hop Question Answering with Novel Knowledge
要約: 研究は、パラメトリック(教師なしおよび教師ありファインチューニング)とノンパラメトリック(RAG)知識注入をオープンドメインのマルチホップQAで体系的に比較し、RAGと教師ありファインチューニングが教師なしファインチューニングを上回り、特に時間的に新規な情報に対して性能が向上することを示す。
Multi-hop question answering is widely used to evaluate the reasoning capabilities of large language models (LLMs), as it requires integrating multiple pieces of supporting knowledge to arrive at a correct answer. While prior work has explored different mechanisms for providing knowledge to LLMs, such as finetuning and retrieval-augmented generation (RAG), their relative effectiveness for multi-hop question answering remains insufficiently understood, particularly when the required knowledge is temporally novel. In this paper, we systematically compare parametric and non-parametric knowledge injection methods for open-domain multi-hop question answering. We evaluate unsupervised fine-tuning (continual pretraining), supervised fine-tuning, and retrieval-augmented generation across three 7B-parameter open-source LLMs. Experiments are conducted on two benchmarks: QASC, a standard multi-hop science question answering dataset, and a newly constructed dataset of over 10,000 multi-hop questions derived from Wikipedia events in 2024, designed to test knowledge beyond the models' pretraining cutoff. Our results show that unsupervised fine-tuning provides only limited gains over base models, suggesting that continual pretraining alone is insufficient for improving multi-hop reasoning accuracy. In contrast, retrieval-augmented generation yields substantial and consistent improvements, particularly when answering questions that rely on temporally novel information. Supervised fine-tuning achieves the highest overall accuracy across models and datasets. These findings highlight fundamental differences in how knowledge injection mechanisms support multi-hop question answering and underscore the importance of retrieval-based methods when external or compositional knowledge is required.
研究の動機と目的
- 異なる知識注入メカニズムがオープンドメインのマルチホップ質問応答性能に与える影響を評価する。
- 統一された枠組みの下で、教師なしファインチューニング、教師ありファインチューニング、RAGを評価する。
- 事前学習カットオフを超える時間的に新規な情報を含むデータセットでの性能を分析する。
- マルチホップQAタスクの知識注入アプローチ選択に関する指針を提供する。
提案手法
- 三つの知識注入メカニズムの体系的比較:教師なしファインチューニング(継続的事前学習)、教師ありファインチューニング、RAG(retrieval-augmented generation)。
- 統一された複数選択設定の下で、7BスケールのオープンソースLLM3モデル(Mistral-7B、LLaMA-7B、LLaMA-7B-Instruct)を評価する。
- 2つのベンチマークを構築:QASC(8択の多肢選択)と、2024年のWikipediaイベントから派生した4択の2024 Eventsデータセット。
- RAGでは、Wikipedia由来の知識ベースを構築し、テキストをチャンク化、BGEで埋め込み、FAISSでインデックス化、クロスエンコーダーリランカを使用する。
- RAGにはMMLU風スコアリングを、教師ありファインチューニングには標準のクロスエントロピー損失を用い、評価指標は精度とする。
実験結果
リサーチクエスチョン
- RQ1知識注入の方法(教師なしファインチューニング、教師ありファインチューニング、またはRAG)はオープンドメインのマルチホップQA性能に影響を与えるか。
- RQ2事前学習中に見られなかった時間的に新規な情報を要する質問に対して、これらの方法はどのように機能するか。
- RQ3データセット間でマルチホップ推論における取得ベースとパラメータベース知識注入の相対的有効性はどの程度か。
- RQ4タスク固有の監視データが利用可能な場合、どのアプローチが全体的な精度を最も高く達成するか。
主な発見
- 教師なしファインチューニングは、マルチホップQAに対してベースモデルに対する利得がごくわずかである。
- RAGは精度を大幅に改善し、特に時間的に新規な2024 Eventsデータで効果が大きく、約2倍程度のパフォーマンスを達成する。
- 教師ありファインチューニングは、モデルとデータセット全体で最高の総合精度を達成する。
- ベースモデルはRAGと教師ありファインチューニングに遅れを取り、外部知識アクセスとタスク固有の監視の価値を示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。