QUICK REVIEW

[论文解读] Facts as First Class Objects: Knowledge Objects for Persistent LLM Memory

Oliver Zahn, Simran Chana|arXiv (Cornell University)|Mar 18, 2026

Advanced Graph Neural Networks被引用 0

一句话总结

该论文将上下文记忆与知识对象（KO）架构用于永久性大模型记忆进行比较，显示KO在成本大幅降低的情况下实现精确检索并抵御生命周期退化，并具备密度自适应检索以应对对抗性事实。

ABSTRACT

Large language models increasingly serve as persistent knowledge workers, with in-context memory - facts stored in the prompt - as the default strategy. We benchmark in-context memory against Knowledge Objects (KOs), discrete hash-addressed tuples with O(1) retrieval. Within the context window, Claude Sonnet 4.5 achieves 100% exact-match accuracy from 10 to 7,000 facts (97.5% of its 200K window). However, production deployment reveals three failure modes: capacity limits (prompts overflow at 8,000 facts), compaction loss (summarization destroys 60% of facts), and goal drift (cascading compaction erodes 54% of project constraints while the model continues with full confidence). KOs achieve 100% accuracy across all conditions at 252x lower cost. On multi-hop reasoning, KOs reach 78.9% versus 31.6% for in-context. Cross-model replication across four frontier models confirms compaction loss is architectural, not model-specific. We additionally show that embedding retrieval fails on adversarial facts (20% precision at 1) and that neural memory (Titans) stores facts but fails to retrieve them on demand. We introduce density-adaptive retrieval as a switching mechanism and release the benchmark suite.

研究动机与目标

评估在前沿大型语言模型中，随着语料规模与语义密度增加，上下文记忆的扩展性。
识别生产环境中上下文记忆的失效模式（容量极限、压缩损失、目标漂移）。
提出知识对象作为外部记忆层，以防止记忆退化。
开发并评估密度自适应检索机制，以应对检索中的对抗性事实。
量化记忆架构在企业级数据上的生产成本与性能影响。

提出的方法

使用药理事实语料库对上下文记忆在N=10到10,000范围内进行基准测试。
比较记忆架构：上下文记忆（Claude Sonnet 4.5 与 GPT-4o） vs. 知识对象（KO），实现O(1)检索。
将知识对象作为离散的（主体，谓词，客体，来源）元组外部存储，并采用基于哈希的查找。
在记忆压力与级联压缩下量化压缩损失和目标漂移。
开发密度自适应检索，在检索集合的密度超过阈值τ时切换到精确键匹配。
评估嵌入检索在对抗性事实上的失败情况，并测试混合检索性能。

实验结果

研究问题

RQ1在模型上下文窗口内外，随着存储事实数量增加，上下文记忆的精确匹配检索性能如何变化？
RQ2在考虑记忆生命周期时，上下文记忆的生产失效模式（容量、压缩、目标漂移）有哪些？
RQ3知识对象是否在大语料场景下为持久化的LLM使用提供准确、可扩展且成本高效的记忆？
RQ4密度自适应检索是否能缓解检索中的对抗性事实并保持高精度？
RQ5随着语料规模增长，上下文记忆与基于KO的记忆的相对成本如何？

主要发现

Claude Sonnet 4.5在N=10到7000之间在其200K令牌窗口内实现100%精确匹配（占窗口的97.5%）。
容量极限导致在大约8000条事实时发生硬提示溢出；即使更大窗口的模型也存在实际限制。
在36.7倍压缩后，压缩会使回忆率下降60%（10条原始事实中只有4条可恢复），目标漂移在三轮级联后将保留约46%的约束。
KO在所有测试条件下实现100%精确度，且单次查询成本比上下文记忆低252倍，在上下文记忆不可行的语料规模下仍然可用。
对抗性事实上嵌入检索在precision@1方面仅有20%；当密度超过阈值（τ=0.85）时切换到精确键匹配的密度自适应检索在对抗性语料上实现100% P@1，同时在正常数据上保留嵌入检索的优点。
生产经济学显示KO记忆在令牌数量减少的范围保持97–99%的压缩并维持固定的年成本（约56美元/年），与上下文记忆成本随语料规模上升形成对比。
该工作确认了通过压缩导致的上下文腐坏的失效模式，并展示架构分离作为一种实际解决方案。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。