QUICK REVIEW

[논문 리뷰] Augmenting Language Models with Long-Term Memory

Weizhi Wang, Li Dong|arXiv (Cornell University)|2023. 06. 12.

Topic Modeling인용 수 33

한 줄 요약

LongMem은 동결된 백본 LLM이 과거의 긴 맥락을 인코딩하도록 하는 분리된 메모리 프레임워크를 제안하고, 경량 SideNet이 메모리 보강을 검색하고 융합하여 장기 컨텍스트 모델링 및 메모리 강화된 인-컨텍스트 학습을 가능하게 한다.

ABSTRACT

Existing large language models (LLMs) can only afford fix-sized inputs due to the input length limit, preventing them from utilizing rich long-context information from past inputs. To address this, we propose a framework, Language Models Augmented with Long-Term Memory (LongMem), which enables LLMs to memorize long history. We design a novel decoupled network architecture with the original backbone LLM frozen as a memory encoder and an adaptive residual side-network as a memory retriever and reader. Such a decoupled memory design can easily cache and update long-term past contexts for memory retrieval without suffering from memory staleness. Enhanced with memory-augmented adaptation training, LongMem can thus memorize long past context and use long-term memory for language modeling. The proposed memory retrieval module can handle unlimited-length context in its memory bank to benefit various downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k tokens and thus cache many-shot extra demonstration examples as long-form memory for in-context learning. Experiments show that our method outperforms strong long-context models on ChapterBreak, a challenging long-context modeling benchmark, and achieves remarkable improvements on memory-augmented in-context learning over LLMs. The results demonstrate that the proposed method is effective in helping language models to memorize and utilize long-form contents. Our code is open-sourced at https://aka.ms/LongMem.

연구 동기 및 목표

고정된 입력 한계를 넘어서는 장기 형식의 과거 맥락을 기억하고 활용하도록 언어 모델을 가능하게 한다.
적응 과정에서 메모리 노후화를 피하기 위해 메모리 인코딩과 메모리 검색을 분리한다.
현재 입력 처리에 메모리 보강을 검색하고 융합하는 경량 SideNet를 개발한다.
무한한 길이의 메모리를 허용하여 장문 텍스트 작업과 인-컨텍스트에서 수천 개의 시연을 지원한다.
장기 맥락 언어 모델링 벤치마크와 메모리 증강 인-컨텍스트 학습에서 개선을 입증한다.

제안 방법

동결된 백본 LLM을 메모리 인코더로 사용하여 과거의 주의 키-값 쌍을 미분 불가능한 메모리 뱅크에 캐시한다.
백본을 동결한 채 메모리 보강 적응을 통해 학습되는 메모리 검색자이자 리더로 잔차형 SideNet를 도입한다.
토큰-투-청크 메모리 검색을 구현하여 상위-K개의 메모리 청크를 가져오고 메모리 보강 디코더 층에서 융합한다.
계층별 잔차를 통해 백본 LLM 정보를 SideNet으로 주입하는 교차 네트워크 잔차 연결을 적용한다.
표준 좌→우 언어 모델링 목적을 사용하는 메모리 보강 학습을 수행하여 메모리를 검색하고 융합하는 방법을 학습하게 한다.

실험 결과

연구 질문

RQ1분리된 메모리 아키텍처가 메모리 노후화 없이 LLM이 장기 과거 맥락을 활용하도록 할 수 있는가?
RQ2장기 맥락 작업에서 메모리 보강을 검색하고 융합하는 데 있어 경량 SideNet의 효율성은 어느 정도인가?
RQ3무제한 메모리가 이용 가능할 때 장기 맥락 언어 모델링 및 인-컨텍스트 학습에서 얻는 이점은 무엇인가?
RQ4메모리 크기와 청크 크기가 검색 품질 및 다운스트림 성능에 어떤 영향을 미치는가?

주요 결과

LongMem은 긴 텍스트 모델링 벤치마크에서 강력한 장-context 베이스라인을 능가하고, PG-22에서 (-1.38 to -1.62) 및 ArXiv에서 (-1.0)의 상당한 퍼플렉시티 감소를 달성한다.
ChapterBreak (AO3)에서 LongMem은 40.5%의 최첨단 접미사 식별 정확도를 달성하여 x-former 베이스라인 및 훨씬 더 많은 매개변수를 가진 GPT-3를 능가한다.
메모리 보강 인-컨텍스트 학습에서 Long Mem은 MemTRM 및 비메모리 베이스라인보다 주목할 만한 이득을 제공하며, 20샷 설정에서 5개 NLU 태스크에서 평균 정확도 약 +8.0를 달성한다.
메모리 시연(예: 추가 200개 시연)을 사용하면 LongMem은 SQuAD 개방형 생성 지표를 EM 26.77 및 F1 35.70으로 향상시킨다.
절단 연구와 같은 결과는 더 작은 청크 크기(예: csz = 2)가 ICL 태스크의 미세한 검색에 이익이 될 수 있으며, 메모리 크기(msz) 선택이 데이터셋 컨텍스트 길이와 정렬되어 최적의 퍼플렉시티 성능을 보임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.