Skip to main content
QUICK REVIEW

[論文レビュー] BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

Yuri Kuratov, Aydar Bulatov|arXiv (Cornell University)|Jun 14, 2024
Natural Language Processing Techniques被引用数 6
ひとこと要約

BABILongは長文脈推論を20課題で評価し、背景テキストを用いて、限定的な文脈利用(10-20%)、弱いRAG性能、そして最大11百万トークンまで処理可能な再帰的メモリーモデルが強いことを示す。

ABSTRACT

In recent years, the input context sizes of large language models (LLMs) have increased dramatically. However, existing evaluation methods have not kept pace, failing to comprehensively assess the efficiency of models in handling long contexts. To bridge this gap, we introduce the BABILong benchmark, designed to test language models' ability to reason across facts distributed in extremely long documents. BABILong includes a diverse set of 20 reasoning tasks, including fact chaining, simple induction, deduction, counting, and handling lists/sets. These tasks are challenging on their own, and even more demanding when the required facts are scattered across long natural text. Our evaluations show that popular LLMs effectively utilize only 10-20\% of the context and their performance declines sharply with increased reasoning complexity. Among alternatives to in-context reasoning, Retrieval-Augmented Generation methods achieve a modest 60\% accuracy on single-fact question answering, independent of context length. Among context extension methods, the highest performance is demonstrated by recurrent memory transformers after fine-tuning, enabling the processing of lengths up to 50 million tokens. The BABILong benchmark is extendable to any length to support the evaluation of new upcoming models with increased capabilities, and we provide splits up to 10 million token lengths.

研究の動機と目的

  • 極端に長い文書に分布した事実を現在のLLMがどれくらいうまく推論できるかを評価する。
  • 長い入力に対する文脈拡張手法とRetrieval-Augmented Generationの有効性を評価する。
  • 新しいモデルを評価するため、長さが最大1Mトークンまで拡張可能で(11Mまで tested)、拡張性のあるベンチマークを提供する。

提案手法

  • PG19の背景テキストにタスク文を埋め込んで長い文脈を作成し、bAbIスタイルの推論タスクを拡張する。
  • 背景の長さとタスクタイプを含む24モデルを評価し、事実連鎖、帰納、演繹、カウント、リスト/集合を含む。
  • Retrieval-Augmented Generation (RAG)と文脈拡張手法(例:再帰的メモリートランスフォーマー)を比較する。
  • 短いシーケンスから長いシーケンスへとカリキュラム学習でBABILongに選定モデルをファインチューニングする。
  • 長さの事前定義分割を最大1Mトークンまで使用し、いくつかのモデルを最大11Mトークンまでテストする。

実験結果

リサーチクエスチョン

  • RQ1事実が極端に長い文書に分布している場合、現在のLLMは長文脈推論タスクでどのようにパフォーマンスを出すか?
  • RQ2利用可能な文脈をモデルはどの程度活用するのか、文脈長と推論の複雑さに応じてパフォーマンスはどうスケールするか?
  • RQ3BABILongタスクにおいてRAGと様々な文脈拡張アプローチは、特にマルチホップ推論に対してどう比較されるか?
  • RQ4小型でファインチューニングされたモデル(例:RMT、Mamba)は、非常に長い入力長において大きなモデルやRAGを上回ることができるか?
  • RQ5BABILongの結果と他のベンチマーク(例:MMLU、RULER)との関係は、異なる文脈長でどうなるか?

主な発見

  • 人気のあるLLMは実際には入力文脈の約10-20%しか効果的に利用していない。
  • 推論の複雑さと入力長が増えるにつれてパフォーマンスが急激に低下する。
  • RAG手法は単一事実の質問で約60%の精度を達成するが、文脈長にほぼ依存しない。
  • ファインチューニングされた再帰的メモリートランスフォーマー(RMT)は、長いテキストを処理でき、11百万トークンまでの長文脤タスクでRAGを上回る。
  • MambaとRMTは評価モデルの中で最も強い結果を示し、RMTは訓練長を遥かに超える能力を維持する(最大11Mトークンまで)。
  • 長さの長い文脈ではファインチューニングは性能を向上させるが、基盤サイズのモデルは長文脈適応がなければ一般に制限されたままである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。