QUICK REVIEW

[논문 리뷰] Facts as First Class Objects: Knowledge Objects for Persistent LLM Memory

Oliver Zahn, Simran Chana|arXiv (Cornell University)|2026. 03. 18.

Advanced Graph Neural Networks인용 수 0

한 줄 요약

본 논문은 컨텍스트 내 기억(in-context memory)과 지식 객체(KO) 아키텍처를 지속 가능한 LLM 메모리로 비교하고, KO가 훨씬 낮은 비용으로 정확한 조회를 달성하고 수명 주기 저하에 강하다고 설명하며, 적대적 사실을 다루기 위한 밀도 적응형 조회 메커니즘을 제시한다.

ABSTRACT

Large language models increasingly serve as persistent knowledge workers, with in-context memory - facts stored in the prompt - as the default strategy. We benchmark in-context memory against Knowledge Objects (KOs), discrete hash-addressed tuples with O(1) retrieval. Within the context window, Claude Sonnet 4.5 achieves 100% exact-match accuracy from 10 to 7,000 facts (97.5% of its 200K window). However, production deployment reveals three failure modes: capacity limits (prompts overflow at 8,000 facts), compaction loss (summarization destroys 60% of facts), and goal drift (cascading compaction erodes 54% of project constraints while the model continues with full confidence). KOs achieve 100% accuracy across all conditions at 252x lower cost. On multi-hop reasoning, KOs reach 78.9% versus 31.6% for in-context. Cross-model replication across four frontier models confirms compaction loss is architectural, not model-specific. We additionally show that embedding retrieval fails on adversarial facts (20% precision at 1) and that neural memory (Titans) stores facts but fails to retrieve them on demand. We introduce density-adaptive retrieval as a switching mechanism and release the benchmark suite.

연구 동기 및 목표

프런티어 LLM에서 컨텍스트 내 기억이 말뭉치 크기 및 의미 밀도에 따라 어떻게 확장되는지 평가한다.
생산 환경에서 컨텍스트 내 기억의 실패 모드(용량 한계, 압축 손실, 목표 편향)를 식별한다.
메모리 저하를 방지하기 위한 외부 메모리 계층으로서 Knowledge Objects를 제안한다.
조회 중 적대적 사실을 다루기 위한 밀도적응형 조회 메커니즘을 개발하고 평가한다.
기업 규모 데이터에 대한 메모리 아키텍처의 생산 비용 및 성능 영향력을 정량화한다.

제안 방법

10에서 10,000까지의 N에 대해 약리학적 사실 말뭉치를 사용하여 컨텍스트 내 기억을 벤치마크한다.
메모리 아키텍처를 비교한다: 컨텍스트 내 기억(Claude Sonnet 4.5 및 GPT-4o) 대 외부 메모리(KO)와 O(1) 조회를 가진 KO.
지식 객체를 이산적(주체, 술어, 객체, 출처) 튜플로 외부에 저장하고 해시 기반 조회를 사용하는 방식으로 도입한다.
메모리 압력 하의 압축 손실과 연쇄 압축으로 인한 목표 편향을 정량화한다.
검색 집합의 밀도가 임계값(τ)을 초과할 때 정확한 키 매칭으로 전환하는 밀도 적응형 조회를 개발한다.
임베딩 조회가 실패하는 적대적 사실을 평가하고 하이브리드 조회 성능을 테스트한다.

실험 결과

연구 질문

RQ1저장된 사실의 수가 모델의 컨텍스트 창 내외에서 증가함에 따라 컨텍스트 내 기억의 정확 일치 조회 성능이 어떻게 변하는가?
RQ2메모리 수명 주기를 고려할 때 컨텍스트 내 기억의 생산 환경에서의 실패 모드는 무엇인가(용량, 압축, 목표 편향)?
RQ3지식 객체가 대규모 말뭉치에 걸친 지속적 LLM 사용에 대해 정확하고 확장 가능하며 비용 효율적인 메모리를 제공하는가?
RQ4밀도 적응형 조회 메커니즘이 조회의 적대적 사실을 완화하고 높은 정밀도를 유지할 수 있는가?
RQ5말뭉치 크기가 커질 때 컨텍스트 내 기억과 KO 기반 기억의 상대 비용은 어떻게 되는가?

주요 결과

Claude Sonnet 4.5는 200K 토큰 창 내에서 N=10에서 N=7,000까지 100% 정확 일치 정확도를 달성한다(창의 97.5%).
용량 한계로 Claude에서 약 8,000개의 사실에서 하드 프롬프트 초과가 발생한다; 더 큰 창 모델이라도 실용적 한계가 여전히 존재한다.
압축은 36.7배 압축 후 회상을 60% 감소시키고(원래 사실 중 6개를 복구 불가), 목표 편향은 세 번의 연쇄적 라운드 후 보존 제약을 46%로 감소시킨다.
KO는 테스트된 모든 조건에서 컨텍스트 내 기억 대비 252배 낮은 per-query 비용으로 100% 정확도를 달성하고, 컨텍스트 내 기억이 불가능한 말뭉치 크기에서도 실행 가능하다.
임베딩 조회는 적대적 사실에서 20% precision@1로 실패; 밀도가 임계값(τ=0.85)을 초과하면 정확한 키 매칭으로 전환하는 밀도 적응형 조회가 적대적 말뭉치에서 100% P@1을 달성하고 정상 데이터에서의 임베딩 이점을 보존한다.
생산 경제성은 KO 메모리가 97–99%의 토큰 감소와 일정 연간 비용(대략 연 56달러)을 말뭉치 크기에 관계없이 유지하는 반면, 컨텍스트 내 기억의 비용은 상승한다는 것을 보여준다.
본 연구는 압축을 통한 맥락 산화(context rot)의 실패 모드를 확인하고, 아키텍처 분리를 실용적 해법으로 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.