[논문 리뷰] Chronos: Temporal-Aware Conversational Agents with Structured Event Retrieval for Long-Term Memory
Chronos는 시계일시 이중 달력 메모리 시스템을 도입하여 시간적으로 근거가 있는 이벤트를 선택적으로 추출하고 동적 프롬프트를 사용하여 LLM 기반 대화 에이전트를 위한 효율적이고 시간 인지적 장기 기억 검색을 가능하게 하며 LongMemEvalS에서 최첨단 정확도를 달성한다.
Recent advances in Large Language Models (LLMs) have enabled conversational AI agents to engage in extended multi-turn interactions spanning weeks or months. However, existing memory systems struggle to reason over temporally grounded facts and preferences that evolve across months of interaction and lack effective retrieval strategies for multi-hop, time-sensitive queries over long dialogue histories. We introduce Chronos, a novel temporal-aware memory framework that decomposes raw dialogue into subject-verb-object event tuples with resolved datetime ranges and entity aliases, indexing them in a structured event calendar alongside a turn calendar that preserves full conversational context. At query time, Chronos applies dynamic prompting to generate tailored retrieval guidance for each question, directing the agent on what to retrieve, how to filter across time ranges, and how to approach multi-hop reasoning through an iterative tool-calling loop over both calendars. We evaluate Chronos with 8 LLMs, both open-source and closed-source, on the LongMemEvalS benchmark comprising 500 questions spanning six categories of dialogue history tasks. Chronos Low achieves 92.60% and Chronos High scores 95.60% accuracy, setting a new state of the art with an improvement of 7.67% over the best prior system. Ablation results reveal the events calendar accounts for a 58.9% gain on the baseline while all other components yield improvements between 15.5% and 22.3%. Notably, Chronos Low alone surpasses prior approaches evaluated under their strongest model configurations.
연구 동기 및 목표
- 대화형 AI에서 주 단위에서 수주에 걸친 상호작용 동안 시간적으로 근거 있는 장기 기억의 문제를 해결한다.
- 시간 이벤트를 선택적으로 추출하고 원시 대화 턴을 의미 검색을 위해 보존하는 메모리 프레임워크를 제안한다.
- 각 질문에 맞춘 검색 지침을 생성하는 동적 프롬 prompting을 개발하고 두 개의 달력 위에서 반복 도구 호출을 가능하게 한다.
제안 방법
- 타임스탬프가 포함된 이벤트를 주-동사-목 삼중으로 추출하고 해석된 날짜시간 범위를 가진다.
- 구조화된 시간 이벤트를 위한 이벤트 달력과 원시 대화를 위한 턴 달력의 두 달력을 유지한다.
- 턴 달력에 대해 벡터 검색, 재정렬, 맥락 확장을 포함하는 세 단계의 초기 검색(덴스 검색, 재정렬, 맥락 확장)과 함께 밀집 검색을 활용한다.
- 메모리 질의를 위해 질문별 검색 지침을 생성하기 위해 동적 프롬프트를 적용한다.
- 두 달력 모두에서 반복적 검색을 수행하기 위해 도구 호출 기능을 갖춘 Chronos 에이전트를 구현한다.

실험 결과
연구 질문
- RQ1질문 조건화된 선택적 시간 근거 이벤트 추출이 순수 턴 레벨 혹은 완전히 구조화된 지식 베이스 접근 방식에 비해 장기 기억 검색을 어떻게 개선하는가?
- RQ2동적 프롬프트가 시간 추론, 지식 업데이트, 다중 세션 집계와 같은 서로 다른 장기 기억 질의 유형에 대해 검색 전략을 맞춤화할 수 있는가?
- RQ3이벤트 중심 인덱싱으로 듀얼-캘린더 메모리가 규모에 맞춘 교차 세션 시간 추론을 가능하게 하는가?
주요 결과
| Method | Overall | KU | MS | SSA | SSP | SSU | TR |
|---|---|---|---|---|---|---|---|
| Chronos Low (Ours) | 92.60 | 96.15 | 91.73 | 100.00 | 80.00 | 94.29 | 90.23 |
| Honcho † | 90.40 | 94.87 | 84.96 | 96.43 | 90.00 | 94.29 | 88.72 |
| EmergenceMem Internal | 86.00 | 83.33 | 81.20 | 100.00 | 60.00 | 98.57 | 85.71 |
| Mastra | 84.80 | 85.90 | 79.70 | 82.14 | 73.33 | 98.57 | 85.71 |
| Supermemory | 81.60 | 88.50 | 71.40 | 96.40 | 70.00 | 97.10 | 76.70 |
| Hindsight ‡ | 83.60 | 84.60 | 79.70 | 94.60 | 66.70 | 95.70 | 79.70 |
| Zep | 71.20 | 83.30 | 57.90 | 80.40 | 56.70 | 92.90 | 62.40 |
| Full-context | 60.20 | 78.20 | 44.30 | 94.60 | 20.00 | 81.40 | 45.10 |
- Chronos Low는 LongMemEvalS에서 92.60% 정확도를 달성하여 GPT-4o를 사용하는 실용적 방법 중 새로운 최첨단이다.
- Chronos High는 LongMemEvalS에서 95.60% 정확도를 달성했으며, 더 강력한 모델로 이 벤치마크에서 최고치를 기록했다.
- 이벤트 달력이 기여한 효과는 절차 중 58.9%의 이득으로, 다른 구성 요소들은 15.5–22.3%의 이득을 가져왔다.
- Chronos는 지식 업데이트 추적과 다중 세션 집계에서 기초선보다 우수하고, 여러 단일 세션 카테고리에서 완전한 정확도를 달성했다.
- 동적 프롬프트는 특히 낮은 모델 능력(Chronos Low)에서 성능을 향상시키는 질의별 검색 지침을 제공한다.
- 절단 결과에서 이벤트 인덱스를 제거하면 Chronos Low 정확도가 거의 절반으로 감소하는 것으로 나타나 시간적 구조화의 가치를 강조한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.