[論文レビュー] Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams
本論文はオンライン適応を支援する継続的な更新知識に対するベンチマーク OAKS を提案し、2つのデータセット(OAKS-BABI および OAKS-Novel)で14モデルを評価して頻繁な更新下での知識追跡を分析する。
LLMs operating in dynamic real-world contexts often encounter knowledge that evolves continuously or emerges incrementally. To remain accurate and effective, models must adapt to newly arriving information on the fly. We introduce Online Adaptation to Continual Knowledge Streams(OAKS) to evaluate this capability, establishing a benchmark for online adaptation over streaming, continually updating knowledge. Specifically, the benchmark is structured as a sequence of fine-grained context chunks where facts change dynamically across time intervals. OAKS comprises two datasets: OAKS-BABI and OAKS-Novel, where individual facts evolve multiple times across context chunks. These datasets include dense annotations to measure whether models track changes accurately. Evaluating 14 models with varied inference approaches, we observe significant limitations in current methodologies. Both state-of-the-art models and agentic memory systems fail to adapt robustly on OAKS, demonstrating delays in state-tracking and susceptibility to distraction within streaming environments.
研究の動機と目的
- LLMs におけるストリーミングされる、継続的に更新される知識へオンライン適応を評価する必要性を動機づける。
- 継続的知識学習とオンライン評価を組み合わせたベンチマークとして OAKS を定義する。
- 時間とともに詳細な状態追跡をテストするために OAKS-BABI と OAKS-Novel の2つのデータセットを作成する。
- オンライン知識追跡の失敗モードを特定するために、多様なモデルと推論戦略を評価する。
提案手法
- オンライン適応を継続的知識ストリームへ適用する OAKS をベンチマークフレームワークとして導入する。
- 2つのデータセットを構築する:OAKS-BABI(合成)と OAKS-Novel(人間選定の文学テキスト)。
- 累積コンテキストを用いて各時 interval で同じ質問を照会し、区間レベルの精度を評価する。
- サイズと系統の異なる14モデルを対象に、Base、RAG、アエンジェリックメモリ(agentic memory)などの文脈表現を用いて実験する。
- 推論時に思考モード(中間推論)を用いる/用いないことでモデル挙動を分析する。
- 知識追跡挙動、相転換、失敗モードの細粒度分析を提供する。

実験結果
リサーチクエスチョン
- RQ1LLMs は長期のストリーミング文脈全体で進化する事実知識を追跡・修正できるか。
- RQ2Base、RAG、agentic memory の異なる文脈表現はオンラインの知識追跡性能にどう影響するか。
- RQ3頻繁な知識更新がモデルの精度とエラーモードに与える影響は何か。
- RQ4推論時に中間的な思考を有効にすると OAKS のオンライン適応は改善されるか。
- RQ5過更新(ボラティリティ)と過少更新(慣性)といった共通の失敗モードはあり、質問タイプと間隔にどのように関連するか。
主な発見
- OAKS はオープンソース・クローズドソース問わず難易度が高く、平均精度は完全な追跡には及ばない。
- 知識更新の頻度が増すと性能が低下し、頻繁な状態変化と保持に困難があることを示す。
- RAG はわずかな改善を提供するが、頻繁な更新下での堅牢なオンライン適応には十分でなく、メモリベースのアプローチにはばらつきがある。
- 推論時に思考モードを有効にすると、特に複数コネクションを要する橋渡し質問に対して全体的な精度が向上する。
- エージェント型メモリシステムは平均的に naive RAG を下回るが、中程度/頻繁な更新のサブセットではそれを上回ることがあり、メモリ追跡と更新ダイナミクスのトレードオフを示す。
- モデル全体で、エラーは過更新(ボラティリティ)または過少更新(慣性)から生じることが多く、質問タイプと間隔に特有の失敗モードが存在する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。