[論文レビュー] The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context
StateLM は自己コンテキスト管理ループとメモリ操作ツールキットを学習し、長文QA、チャットメモリ、深層研究タスクにおいてベースラインを上回り、自身のコンテキストを管理できるようにする。
In the world of Harry Potter, when Dumbledore's mind is overburdened, he extracts memories into a Pensieve to be revisited later. In the world of AI, while we possess the Pensieve-mature databases and retrieval systems, our models inexplicably lack the "wand" to operate it. They remain like a Dumbledore without agency, passively accepting a manually engineered context as their entire memory. This work finally places the wand in the model's hand. We introduce StateLM, a new class of foundation models endowed with an internal reasoning loop to manage their own state. We equip our model with a suite of memory tools, such as context pruning, document indexing, and note-taking, and train it to actively manage these tools. By learning to dynamically engineering its own context, our model breaks free from the architectural prison of a fixed window. Experiments across various model sizes demonstrate StateLM's effectiveness across diverse scenarios. On long-document QA tasks, StateLMs consistently outperform standard LLMs across all model scales; on the chat memory task, they achieve absolute accuracy improvements of 10% to 20% over standard LLMs. On the deep research task BrowseComp-Plus, the performance gap becomes even more pronounced: StateLM achieves up to 52% accuracy, whereas standard LLM counterparts struggle around 5%. Ultimately, our approach shifts LLMs from passive predictors to state-aware agents where reasoning becomes a stateful and manageable process.
研究の動機と目的
- stateless LLM から自己 memory と context を自律的に管理する状態-aware エージェントへ移行を動機づける。
- 自己設計型コンテキストを可能にする memory およびコンテキスト管理ツールの一般的ツールキットを提案する。
- 長文文書QA、マルチターン会話メモリ、深い研究タスクにおける分野横断の利得を実証する。
- 学習されたコンテキスト管理がモデルサイズを超えてスケールし、外部人手主導のコンテキスト設計を上回ることを示す。
提案手法
- StateLM を導入。内部推論ループと Pensieve 型のメモリーツールキットを備えた基盤モデルのクラス。
- 相互作用履歴が deleteContext と永続的な外部ノートブックで Mutable に変更可能な、ツール付きエージェント的推論プロセスを形式化する。
- 知覚、獲得、記憶管理を行う six-tool の“スペルブック”を定義する(analyzeText、buildIndex、searchEngine、readChunk、note/updateNote、readNote、deleteContext、finish)。
- 導入状態学習(SFT)と成果ベース・プロセスベースのフィルタリングを組み合わせた expert Trajectory からの教師あり学習と、軌跡ロールアウトとタスク認識報酬を用いた強化学習の二段階で StateLM を訓練する。
- 4B、8B、14B のモデルを用いて、長文文書QA、チャットメモリ、深層研究の三ドメインで長-context ベンチマークを評価する。

実験結果
リサーチクエスチョン
- RQ1モデルは内蔵メモリツールを使って固定コンテキスト制限を克服し、自律的に自分のコンテキストを設計できるか。
- RQ2 学習された自己コンテキストエンジニアリングが長文文書QA、マルチターン対話、深層研究タスクのパフォーマンスにどのような影響を与えるか。
- RQ3 Pensieve に類似した記憶を用いた状態認識エージェントは、固定予算下の外部・手動設計ベースラインを上回るか。
- RQ4 StateLM は実世界の長文コンテキスト設定でモデルサイズとタスク難易度に対してどのようにスケールするか。
主な発見
| Model | Context | LongDoc QA | Chat Memory | BrowseComp+ |
|---|---|---|---|---|
| Qwen3-235B (w/ Pensieve) | 256K | 80.71 | 73.36 | 67.00 |
| RL-MemoryAgent-7B | 32K | 60.24 | 62.45 | 40.60 |
| RL-MemoryAgent-14B | 32K | 78.86 | 74.24 | 59.00 |
| ReadAgent-8B | 32K | 16.38 | 24.02 | 0.00 |
| ReadAgent-14B | 32K | 23.12 | 34.06 | 14.60 |
| Qwen3-4B | 128K | 65.17 | 59.97 | 39.53 |
| StateLM-4B | 32K | 79.57 | 67.25 | 59.33 |
| Qwen3-8B | 128K | 65.87 | 66.81 | 45.40 |
| StateLM-8B | 32K | 83.84 | 70.16 | 58.93 |
| StateLM-8B-RL | 32K | 84.15 | 73.07 | 59.73 |
| Qwen3-14B | 128K | 77.94 | 74.96 | 54.07 |
| StateLM-14B | 32K | 84.15 | 77.44 | 64.40 |
| StateLM-14B-RL | 32K | 84.85 | 78.46 | 64.47 |
- StateLM は長文文書QA で指示ベースのベースラインよりも、活性コンテキストの約1/4程度しか使用せずに優れた性能を示す。
- チャットメモリタスクで、StateLM は標準的な LLM に対して絶対的な正解率を10%〜20%向上させる。
- BrowseComp-Plus の深層研究タスクでは、StateLM は vanilla LLM の約5%に対して最大52%の正解率を達成し、平均で40%超の利得を示す。
- ベンチマーク全体で、StateLM は Needle-in-a-Haystack のような極端なコンテキスト長(最大2Mトークン)でも堅牢な性能を維持する。
- よく訓練された StateLM の強化学習は追加の改善を生む(例:StateLM-8B-RL はいくつかのベンチマークで +3 ポイント)。
- ツール使用パターンは、タスク規模が拡大するにつれて検索回数が増え、メモリ更新が減少する傾向を示し、効率的でタスク適応的なコンテキスト管理を示唆する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。