Skip to main content
QUICK REVIEW

[論文レビュー] Making Retrieval-Augmented Language Models Robust to Irrelevant Context

Ori Yoran, Tomer Wolfson|arXiv (Cornell University)|Oct 2, 2023
Topic Modeling被引用数 20
ひとこと要約

本論文は retrieval-augmented language models (RALMs) が関連しない retrieved context によってどのように害され得るかを分析し、2つの頑健性向上手法を提案する:NLI に基づくフィルタリングのベースラインと、関連と無関連の文脈を混ぜた訓練データを用いたファインチューニングアプローチ。

ABSTRACT

Retrieval-augmented language models (RALMs) hold promise to produce language understanding systems that are are factual, efficient, and up-to-date. An important desideratum of RALMs, is that retrieved information helps model performance when it is relevant, and does not harm performance when it is not. This is particularly important in multi-hop reasoning scenarios, where misuse of irrelevant evidence can lead to cascading errors. However, recent work has shown that retrieval augmentation can sometimes have a negative effect on performance. In this work, we present a thorough analysis on five open-domain question answering benchmarks, characterizing cases when retrieval reduces accuracy. We then propose two methods to mitigate this issue. First, a simple baseline that filters out retrieved passages that do not entail question-answer pairs according to a natural language inference (NLI) model. This is effective in preventing performance reduction, but at a cost of also discarding relevant passages. Thus, we propose a method for automatically generating data to fine-tune the language model to properly leverage retrieved passages, using a mix of relevant and irrelevant contexts at training time. We empirically show that even 1,000 examples suffice to train the model to be robust to irrelevant contexts while maintaining high performance on examples with relevant ones.

研究の動機と目的

  • open-domain QA ベンチマークにおいて、関連性の低い retrieved context が RALM の性能にどのように悪影響を与えるかを評価する。
  • モデルを再訓練することなく、関連性のない文脈を識別し緩和する方法を提案する。
  • 生成データを用いた控えめなファインチューニングが、single-hop および multi-hop の QA タスク全般で頑健性を向上させることを示す。

提案手法

  • NLI-based back-off を用いたモデル非依存の頑健性。QAペアにとって無関係と見なされる retrieved passages をフィルターする。
  • 小規模の自動生成データセットを用いて、LLMs をファインチューニングするデータ生成パイプライン。retrieval-augmented な decompositions(single-hop および multi-hop)を作成。
  • Llama-2-13B を mix した relevant/irrelevant コンテキストで、1,000 の single-hop または 500 の multi-hop 例でファインチューニング( larger models との比較)
  • 5 つの ODQA ベンチマークに across top-1, low-ranked, random retrieved passages および ColBERTV2 retriever を用いて頑健性を評価。
  • エラーを分析し、無関係文脈が失敗を引き起こす条件と、頑健性訓練がこれらのエラーをどのように緩和するかを分類する。
Figure 1: An example from NQ where retrieval augmentation causes Llama-2-13B to err. Augmenting with irrelevant retrieved context leads to an error (right), although the model is able to answer the question without retrieval (left).
Figure 1: An example from NQ where retrieval augmentation causes Llama-2-13B to err. Augmenting with irrelevant retrieved context leads to an error (right), although the model is able to answer the question without retrieval (left).

実験結果

リサーチクエスチョン

  • RQ1関連性が低い retrieved context が open-domain QA ベンチマークでの RALM の性能にどのように影響するか?
  • RQ2LLM を訓練せずに、単純な NLI ベースのフィルターが irrelevant な retrieved passages を信頼できるよう識別できるか?
  • RQ3関連性のある文脈と無関連文脈を混ぜたファインチューニングは、関連ケースの性能を犠牲にすることなく retrieval の頑健性を向上させるか?
  • RQ4単一ホップとマルチホップの QA でノイズの多い retrieval に対する頑健性を得るには、訓練例はいくつが十分か?
  • RQ5異なるリトリーバー(Google Search、ColBERTV2)およびモデル規模で頑健性の利得は維持されるか?

主な発見

  • 高性能なリトリーバーを用いても、retrieval augmentation は複数のベンチマークで性能を低下させ得る。
  • NLI-based back-off は関連性の低い文脈を識別し性能低下を防ぐが、いくつかの関連 passage を却下する可能性がある。
  • 関連性のある/ない文脈を混ぜた自動生成データでのファインチューニングは、データセットを跨いで頑健な性能を生み、ベースラインを上回る。
  • 頑健なモデルは、ランダムまたは低ランクの retrieved context に直面しても正確さを維持または向上し、ノイズの多い retrieval への耐性が向上していることを示す。
  • 混合文脈で訓練されたモデルは prompting ベースのベースラインより優れており、top-1 とノイズ付き retrieval の設定の双方で頑健性を示す。
  • 小型の NLI モデルは関連性の低い証拠を効果的に識別できるが、retrieval が本当に有用な場合に gains が減少する可能性がある。
Figure 2: Accuracy for Llama-2-13B few-shot prompted on five QA tasks, in three settings: (a) without retrieval, (b) with top-1 retrieval from a strong search engine, and (c) with a randomly-retrieved passage. Retrieval augmentation can boost performance, but even strong retrieval hurts performance
Figure 2: Accuracy for Llama-2-13B few-shot prompted on five QA tasks, in three settings: (a) without retrieval, (b) with top-1 retrieval from a strong search engine, and (c) with a randomly-retrieved passage. Retrieval augmentation can boost performance, but even strong retrieval hurts performance

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。