[論文レビュー] Make Your LLM Fully Utilize the Context
本論文は、長い文脈の任意の位置から情報を抽出・統合するための In2 トレーニングを導入し、FilM-7B を生み出す。これにより長い文脈の探索と実世界タスクでベースラインを上回りつつ、短い文脈での性能を維持する。
While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.
研究の動機と目的
- 長い文脈の LLM における中間部の情報が過小活用されている課題を動機づけて対処する。
- 情報が長い文脈全体に分布しうることを明示的に教える、純粋にデータ駆動の In2 トレーニング手法を提案する。
- 短いセグメントから合成された長い文脈の QA データが、プロービングと実世界タスクの両方を改善し得ることを示す。
- FilM-7B が長い文脈処理を強化しつつ、短い文脈の能力を維持することを示す。
提案手法
- 長い文脈(4K–32K トークン)内の1つ以上の128トークン・セグメントの情報を必要とする質問を生成して、一般コーパスから長い文脈 QA データセット D を構築する。
- GPT-4-Turbo を用いて QA ペアを生成し、セグメントを連結してシャッフルすることで長い文脈を組み立てる。
- 2つの QA 種類を作成する:細粒度の単一セグメント意識と多セグメント統合/推論。
- 拒否サンプリングで4K–32Kトークンの文脈長をバランスさせ、忘却を防ぐために短い文脈および一般的な指示調整データを混ぜる。
- In2 トレーニングを用いて、Mistral-7B-Instruct-v0.2 を指示調整でファインチューニングし、FilM-7B を得る。約14Kステップ、128サイズのバッチ、FSDPを用いた16ノード上で。
実験結果
リサーチクエスチョン
- RQ1情報量が多い(In2)トレーニング・パラダイムは、長い文脈中のどこに重要な情報があってもそれを強調することで“lost-in-the-middle”現象を低減できるか。
- RQ2合成された長い文脈 QA データを用いた訓練は、文書、コード、構造化データの文脈でのプロービングのロバスト性にどのように影響するか。
- RQ3FilM-7B は短い文脈の性能を犠牲にせず、実世界の長い文脈タスクを改善するか。
主な発見
- FilM-7B は lost-in-the-middle を大幅に緩和し、32K 文脈ウィンドウ内の任意の位置で VaL Probing タスクの堅牢な性能を示す。
- FilM-7B はプロービングタスクで GPT-4-Turbo と同等以上の性能を達成し、文書およびコードの文脈での堅牢性を示す。
- FilM-7B は実世界の長い文脈タスク(例:NarrativeQA)で著しい改善をもたらしつつ、短い文脈の性能(例:MMLU)も同等に維持する。
- 合成長文データでの訓練は実世界シナリオに一般化し、FilM-7B は長い文脈ベンチマークにおいて約7BオープンソースモデルのSOTA級の結果を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。