QUICK REVIEW

[論文レビュー] Retrieval meets Long Context Large Language Models

Peng Xu, Wei Ping|arXiv (Cornell University)|Oct 4, 2023

Topic Modeling被引用数 14

ひとこと要約

要約: 本論文は Retrieval-augmented（検索機能を組み込んだ）と長文脈 LLM（4K，16K，32K）を長文脈タスクで比較し、検索機能が短い文脈と長い文脈の両方を向上させ、検索付きの4Kが計算量を大幅に増やさずに16K/32Kと同程度の性能を達成し得ることを示す。また、複数のタスクで OpenAI API を上回る強力な Retrieval-augmented Llama2-70B-32k モデルを実証する。

ABSTRACT

Extending the context window of large language models (LLMs) is getting popular recently, while the solution of augmenting LLMs with retrieval has existed for years. The natural questions are: i) Retrieval-augmentation versus long context window, which one is better for downstream tasks? ii) Can both methods be combined to get the best of both worlds? In this work, we answer these questions by studying both solutions using two state-of-the-art pretrained LLMs, i.e., a proprietary 43B GPT and Llama2-70B. Perhaps surprisingly, we find that LLM with 4K context window using simple retrieval-augmentation at generation can achieve comparable performance to finetuned LLM with 16K context window via positional interpolation on long context tasks, while taking much less computation. More importantly, we demonstrate that retrieval can significantly improve the performance of LLMs regardless of their extended context window sizes. Our best model, retrieval-augmented Llama2-70B with 32K context window, outperforms GPT-3.5-turbo-16k and Davinci003 in terms of average score on nine long context tasks including question answering, query-based summarization, and in-context few-shot learning tasks. It also outperforms its non-retrieval Llama2-70B-32k baseline by a margin, while being much faster at generation. Our study provides general insights on the choice of retrieval-augmentation versus long context extension of LLM for practitioners.

研究の動機と目的

長文脈タスクで retrieval augmentation と長文脈拡張のどちらがより良い性能をもたらすかを評価する。
4K/16K/32K の文脈ウィンドウを持つモデルに対する retrieval の影響を定量化する。
QA、要約、文脈内学習を含む seven long-context データセットで retrieval と長文脈の組み合わせが利益をもたらすかを評価する。

提案手法

4K、16K、32K 文脈ウィンドウを持つ 43B および 70B のデコーダーのみ LLM（GPT-43B、Llama2-70B）を比較する。
RoPE 埋め込みの位置補間を用いて 16K/32K へ文脈を拡張する。
三つのリトリーバー（Dragon、Contriever、OpenAI embeddings）を用いてトップNチャンクを取得し、モデルへ証拠として入力する。
プロンプトに従う能力を高めるため、指示に特化したデータセットのブレンドでモデルを指示学習させる。
QM、QASP、NQA、QLTY、MSQ、HQA、MFQA を含む seven long-context データセットでゼロショットとFew-shot タスクを評価する。

実験結果

リサーチクエスチョン

RQ1リトリーバル拡張は、単に文脈ウィンドウを拡大するだけの長文脈 LLM の性能を改善するのか。
RQ2 retrieval-augmented 4K-context モデルは 16K/32K-context モデルと同等以上の精度と効率を達成できるのか。
RQ3文脈ウィンドウのサイズと取得チャンク数が、異なるモデルサイズの下で下流タスクへどのような影響を及ぼすのか。
RQ4大規模文脈 LLM で使用する際、異なるリトリーバーはどう比較されるのか。
RQ5 retrieval-augmented 大規模文脈モデルは、既存の OpenAI モデルより長文脈ベンチマークで上回ることができるのか。

主な発見

Model	Seq len.	Avg.	QM	QASP	NQA	QLTY	MSQ	HQA	MFQA
GPT-43B	4k	26.44	15.56	23.66	15.64	49.35	11.08	28.91	40.90
GPT-43B + ret	4k	29.32	16.60	23.45	19.81	51.55	14.95	34.26	44.63
GPT-43B	16k	29.45	16.09	25.75	16.94	50.05	14.74	37.48	45.08
GPT-43B + ret	16k	29.65	15.69	23.82	21.11	47.90	15.52	36.14	47.39
Llama2-70B	4k	31.61	16.34	27.70	19.07	63.55	15.40	34.64	44.55
Llama2-70B + ret	4k	36.02	17.41	28.74	23.41	70.15	21.39	42.06	48.96
Llama2-70B	16k	36.78	16.72	30.92	22.32	76.10	18.78	43.97	48.63
Llama2-70B + ret	16k	37.23	18.70	29.54	23.12	70.90	23.28	44.81	50.24
Llama2-70B	32k	37.36	15.37	31.88	23.59	73.80	19.07	49.49	48.35
Llama2-70B + ret	32k	39.60	18.34	31.27	24.53	69.55	26.72	53.89	52.91
Llama2-7B	4k	22.65	14.25	22.07	14.38	40.90	8.66	23.13	35.20
Llama2-7B + ret	4k	26.04	16.45	22.97	18.18	43.25	14.68	26.62	40.10
Llama2-7B	32k	28.20	16.09	23.66	19.07	44.50	15.74	31.63	46.71
Llama2-7B + ret	32k	27.63	17.11	23.25	19.12	43.70	15.67	29.55	45.03

検索は評価タスク全体において、4K および 16K/32K の文脈 LLM の性能を大幅に向上させる。
4K コンテキストの LLM に検索を組み合わせると、計算量を大きく増やすことなく、16K の長文脈 LLM（GPT-43B: 29.32 vs 29.45; Llama2-70B: 36.02 vs 36.78）と同等の平均性能を達成できる。
Retrieval-augmented Llama2-70B-32k-ret（32K 文脈）は、9つの長文脈タスクの平均で GPT-3.5-turbo-16k および Davinci-003 を上回る（例: 平均スコア 43.6 vs 42.8 および 40.9 のベースライン）。
Retrievalは長文脈モデルをさらに改善し、Llama2-70B-32k-ret が非 retrieval ベースラインより平均を高く達成する（Table 3 の 39.60 vs 37.36）。一部ケースでは生成速度も向上。
retrieval の利点は、Dragon、Contriever、OpenAI embeddings の複数のリトリーバーで観測され、短文脈と長文脈の設定の両方で持続する。
上位5件を超える取得チャンクの数を増やす（トップ10/トップ20 へ）と、性能が一貫して向上せず、途中で見失う現象により悪化する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。