[論文レビュー] Facts as First Class Objects: Knowledge Objects for Persistent LLM Memory
要約: この論文は、インコンテキスト・メモリと知識オブジェクト(KO)アーキテクチャを比較し、KOがはるかに低コストで正確な検索を達成し、ライフサイクル劣化に耐えることを示す。さらに敵対的な事実に対応する密度適応型検索機構を導入。
Large language models increasingly serve as persistent knowledge workers, with in-context memory - facts stored in the prompt - as the default strategy. We benchmark in-context memory against Knowledge Objects (KOs), discrete hash-addressed tuples with O(1) retrieval. Within the context window, Claude Sonnet 4.5 achieves 100% exact-match accuracy from 10 to 7,000 facts (97.5% of its 200K window). However, production deployment reveals three failure modes: capacity limits (prompts overflow at 8,000 facts), compaction loss (summarization destroys 60% of facts), and goal drift (cascading compaction erodes 54% of project constraints while the model continues with full confidence). KOs achieve 100% accuracy across all conditions at 252x lower cost. On multi-hop reasoning, KOs reach 78.9% versus 31.6% for in-context. Cross-model replication across four frontier models confirms compaction loss is architectural, not model-specific. We additionally show that embedding retrieval fails on adversarial facts (20% precision at 1) and that neural memory (Titans) stores facts but fails to retrieve them on demand. We introduce density-adaptive retrieval as a switching mechanism and release the benchmark suite.
研究の動機と目的
- 最先端のLLMにおけるコーパスサイズと意味密度がインコンテキスト・メモリのスケーリングに与える影響を評価する。
- 運用環境におけるインコンテキスト・メモリの故障モード(容量制限、圧縮損失、ゴール・ドリフト)を特定する。
- メモリの劣化を防ぐ外部メモリ層として知識オブジェクト(KO)を提案する。
- 検索時の敵対的な事実に対処するための密度適応型検索機構を開発・評価する。
- 企業規模のデータに対するメモリアーキテクチャの運用コストと性能影響を定量化する。
提案手法
- Nを10から10,000までの薬理学的事実コーパスを用いてインコンテキスト・メモリをベンチマークする。
- メモリアーキテクチャを比較:インコンテキスト・メモリ(Claude Sonnet 4.5 および GPT-4o)対KO(O(1)検索)
- 知識オブジェクトを離散的な(主語、述語、対象、出典)タプルとしてハッシュベースの検索で外部保存する。
- メモリプレッシャーと連鎖的圧縮下での圧縮損失とゴール・ドリフトを定量化する。
- 取得集合の密度が閾値τを超えた場合に正確なキー照合へ切り替える密度適応検索を開発する。
- 埋め込み検索が失敗する敵対的事実を評価し、ハイブリッド検索の性能を検証する。
実験結果
リサーチクエスチョン
- RQ1保存された事実数がモデルのコンテキスト窓内外で増えると、インコンテキスト・メモリの正確一致検索性能はどう変化するか。
- RQ2メモリライフサイクルを考慮した場合、運用上の故障モード(容量、圧縮、ゴールドリフト)はどう現れるか。
- RQ3知識オブジェクトは大規模コーパスに対して持続的なLLM利用に対して正確で拡張性がありコスト効率的なメモリを提供するか。
- RQ4密度適応型検索機構は敵対的事実を軽減し高精度を維持できるか。
- RQ5コーパスサイズの拡大に伴うインコンテキスト・メモリとKOベースのメモリの相対コストはどうか。
主な発見
- Claude Sonnet 4.5はN=10からN=7,000まで200Kトークン窓内で正確一致精度を100%達成(窓の97.5%)。
- 容量制限によりClaudeは約8,000件でハードプロンプトのオーバーフローが発生する。より大きな窓のモデルでも実質的な制限がある。
- 圧縮はリコールを36.7倍の圧縮後に60%低下させ(元の事実のうち回復不能)、ゴール・ドリフトは3回の階層的圧縮後に保存された制約が46%に減少。
- KOはテスト条件全体で正確度100%を達成し、インコンテキスト・メモリよりクエリ当たりのコストを252倍低く抑え、インコンテキスト・メモリが不可能なコーパス規模でも実行可能。
- 埋め込み検索は敵対的事実でprecision@1が20%に低下するが、密度閾値τ=0.85を超えた場合に正確なキー照合へ切替える密度適応検索は敵対的コーパスで100%のP@1を達成し、通常データでは埋め込みのメリットを維持。
- 運用コストはKOメモリが97–99%のトークン削減を維持し、年間固定費(約$56/年)で済む一方、インコンテキスト・メモリはコーパス規模に応じてコストが増大する。
- 本研究は文脈劣化の故障モードを確認し、圧縮による失敗とアーキテクチャ分離を実用的解決策として示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。