[论文解读] Panini: Continual Learning in Token Space via Structured Memory
Panini 提出一种非参数持续学习框架,写入结构化内存(GSW)并使用基于链的检索(RICR)以更少的推理 token 和更高的准确性来回答问题。
Language models are increasingly used to reason over content they were not trained on, such as new documents, evolving knowledge, and user-specific data. A common approach is retrieval-augmented generation (RAG), which stores verbatim documents externally (as chunks) and retrieves only a relevant subset at inference time for an LLM to reason over. However, this results in inefficient usage of test-time compute (LLM repeatedly reasons over the same documents); moreover, chunk retrieval can inject irrelevant context that increases unsupported generation. We propose a human-like non-parametric continual learning framework, where the base model remains fixed, and learning occurs by integrating each new experience into an external semantic memory state that accumulates and consolidates itself continually. We present Panini, which realizes this by representing documents as Generative Semantic Workspaces (GSW) -- an entity- and event-aware network of question-answer (QA) pairs, sufficient for an LLM to reconstruct the experienced situations and mine latent knowledge via reasoning-grounded inference chains on the network. Given a query, Panini only traverses the continually-updated GSW (not the verbatim documents or chunks), and retrieves the most likely inference chains. Across six QA benchmarks, Panini achieves the highest average performance, 5%-7% higher than other competitive baselines, while using 2-30x fewer answer-context tokens, supports fully open-source pipelines, and reduces unsupported answers on curated unanswerable queries. The results show that efficient and accurate structuring of experiences at write time -- as achieved by the GSW framework -- yields both efficiency and reliability gains at read time. Code is available at https://github.com/roychowdhuryresearch/gsw-memory.
研究动机与目标
- 推动非参数持续学习以避免灾难性遗忘和过度再训练。
- 提出一个结构化内存表示(GSW),对实体、事件和问答对进行编码以用于推理。
- 引入基于链的检索方法(RICR),遍历 GSW 以获得推理为基础的答案。
- 在多跳和单跳问答基准上对 Panini 进行实证评估,关注准确性、效率和拒答。
- 证明写入结构化内存在读取时带来效率和可靠性方面的好处。
提出的方法
- 为每份文档创建一个 Generative Semantic Workspace (GSW),由实体节点、动词短语/事件节点和将事件定性到实体的问答边对组成。
- 用双重检索设置对 GSW 进行索引:一个稀疏的 BM25 实体索引和一个密集的问答对索引,以实现高效候选检索。
- 应用 Reasoning Inference Chain Retrieval (RICR):将查询分解为子问题,在跨 GSW 的问答链上进行束搜索,并通过每跳分数的几何平均来对链进行评分。
- 使用束宽度 B 进行修剪和多样化以构建多条推理路径,然后对证据去重并从检索到的问答链中生成最终答案。
- 在六个问答基准上进行评估,包括单跳和多跳任务,并与基于块、结构增强和代理基线进行比较。

实验结果
研究问题
- RQ1固定基模型搭配外部结构化内存(GSW)是否可以在不重新训练的情况下实现持续学习?
- RQ2对结构化内存进行基于链的检索是否能对多跳问题提供高效且准确的推理?
- RQ3Panini 是否在需要更少的答案上下文 token 的情况下实现更高的事实准确性,同时在无法回答的问题上实现可靠的回避?
主要发现
- Panini 在六项问答基准中实现了最高的平均 F1,超过强基线。
- Panini 使用的答案上下文 token 比竞争方法少 2–30×。
- Panini 在缺乏证据的情况下表现出强鲁棒性,在 Platinum 子集上具有高可回答性和高拒答性。
- 消融研究表明 Panini 的性能对 GSW/任务分解和模型选择具有鲁棒性。
- 开源配置保持了 Panini 的优势,即使在较小的模型下也是如此。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。