QUICK REVIEW

[논문 리뷰] Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models

Qingyue Wang, Fu, Yanhe|arXiv (Cornell University)|2023. 08. 29.

Topic Modeling인용 수 10

한 줄 요약

본 논문은 LLM으로 메모리 요약을 재귀적으로 생성하여 장기 대화 기억(memory)을 강화하고자 하며, MSC에서 ChatGPT와 text-davinci-003를 사용해 평가했을 때 특히 후반 세션에서 일관성이 향상됨을 보였다.

ABSTRACT

Recently, large language models (LLMs), such as GPT-4, stand out remarkable conversational abilities, enabling them to engage in dynamic and contextually relevant dialogues across a wide range of topics. However, given a long conversation, these chatbots fail to recall past information and tend to generate inconsistent responses. To address this, we propose to recursively generate summaries/ memory using large language models (LLMs) to enhance long-term memory ability. Specifically, our method first stimulates LLMs to memorize small dialogue contexts and then recursively produce new memory using previous memory and following contexts. Finally, the chatbot can easily generate a highly consistent response with the help of the latest memory. We evaluate our method on both open and closed LLMs, and the experiments on the widely-used public dataset show that our method can generate more consistent responses in a long-context conversation. Also, we show that our strategy could nicely complement both long-context (e.g., 8K and 16K) and retrieval-enhanced LLMs, bringing further long-term dialogue performance. Notably, our method is a potential solution to enable the LLM to model the extremely long context. The code and scripts are released.

연구 동기 및 목표

오픈 도메인 장기 대화에서 라벨링된 데이터나 추가 도구 없이 망각 문제를 해결한다.
짧은 맥락에서 메모리(요약)를 재귀적으로 업데이트하는 메모리 관리 체계를 제안한다.
최신 메모리를 사용해 응답 생성기가 일관되고 긴 맥락의 응답을 생성하도록 한다.
여러 LLM에서 효과성과 강건성을 입증하고 몇-shot 프롬프트의 이점을 분석한다.

제안 방법

LLM을 메모리 관리자로도, 응답 생성기로도 다룬다.
메모리 업데이트: M_s = LLM(C_{t-1}, M_{s-1}, P_m) 여기서 C_{t-1}은 짧은 맥락이고 P_m은 메모리 관리 프롬프트이다.
응답 생성: r_t = LLM(C_t, M_s, P_r) 여기서 P_r은 응답 프롬프트이다.
메모리는 이전 메모리와 새로운 대사를 결합하여 재귀적으로 업데이트하여 일관된 장기 메모리를 만든다.
MSC 데이터셋에서 고정된 LLM(ChatGPT, text-davinci-003)로 평가한다.
전체 맥락, 부분 맥락, 골드 메모리를 포함한 베이스라인과의 비교.

실험 결과

연구 질문

RQ1라벨링된 데이터나 추가 도구 없이도 LLM이 past 대화를 재귀적으로 요약해 장기 대화 기억을 개발할 수 있는가?
RQ2예측된(재귀적으로 생성된) 메모리가 원시 맥락이나 부분 맥 Kontext를 사용할 때보다 장기 대화에서 더 일관되고 응집력 있는 응답을 도출하는가?
RQ3다른 LLM에서도 접근 방식의 강건성은 어떠하며 소수-shot 인-context 학습의 이점을 얻을 수 있는가?

주요 결과

예측된 메모리는 특히 MSC 세션4와 세션5에서 가장 높은 성능을 자주 보인다.
생성된 메모리는 베이스라인 대비 F1과 BLEU-2에서 상당한 개선을 보이며 일부 지표에서 Gold Memory를 능가할 수 있다.
메모리 예측은 모든 맥락이나 부분 맥락을 사용할 때보다 응답에 장기 정보의 응집성과 통합이 더 높다.
메서드는 서로 다른 LLM(ChatGPT, text-davinci-003)에서도 강건함을 보인다.
소수-shot 프롬프팅(하나의 라벨이 있는 예제)으로 메모리 품질과 응답 성능이 추가로 향상된다.
메모리의 인과 관계가 잘못될 수 있어 메모리에서의 환각 가능성이 있으며 이를 완화하기 위한 향후 연구가 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.