[논문 리뷰] Augmenting Language Models with Long-Term Memory
LongMem은 동결된 백본 LLM이 과거의 긴 맥락을 인코딩하도록 하는 분리된 메모리 프레임워크를 제안하고, 경량 SideNet이 메모리 보강을 검색하고 융합하여 장기 컨텍스트 모델링 및 메모리 강화된 인-컨텍스트 학습을 가능하게 한다.
Existing large language models (LLMs) can only afford fix-sized inputs due to the input length limit, preventing them from utilizing rich long-context information from past inputs. To address this, we propose a framework, Language Models Augmented with Long-Term Memory (LongMem), which enables LLMs to memorize long history. We design a novel decoupled network architecture with the original backbone LLM frozen as a memory encoder and an adaptive residual side-network as a memory retriever and reader. Such a decoupled memory design can easily cache and update long-term past contexts for memory retrieval without suffering from memory staleness. Enhanced with memory-augmented adaptation training, LongMem can thus memorize long past context and use long-term memory for language modeling. The proposed memory retrieval module can handle unlimited-length context in its memory bank to benefit various downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k tokens and thus cache many-shot extra demonstration examples as long-form memory for in-context learning. Experiments show that our method outperforms strong long-context models on ChapterBreak, a challenging long-context modeling benchmark, and achieves remarkable improvements on memory-augmented in-context learning over LLMs. The results demonstrate that the proposed method is effective in helping language models to memorize and utilize long-form contents. Our code is open-sourced at https://aka.ms/LongMem.
연구 동기 및 목표
- 고정된 입력 한계를 넘어서는 장기 형식의 과거 맥락을 기억하고 활용하도록 언어 모델을 가능하게 한다.
- 적응 과정에서 메모리 노후화를 피하기 위해 메모리 인코딩과 메모리 검색을 분리한다.
- 현재 입력 처리에 메모리 보강을 검색하고 융합하는 경량 SideNet를 개발한다.
- 무한한 길이의 메모리를 허용하여 장문 텍스트 작업과 인-컨텍스트에서 수천 개의 시연을 지원한다.
- 장기 맥락 언어 모델링 벤치마크와 메모리 증강 인-컨텍스트 학습에서 개선을 입증한다.
제안 방법
- 동결된 백본 LLM을 메모리 인코더로 사용하여 과거의 주의 키-값 쌍을 미분 불가능한 메모리 뱅크에 캐시한다.
- 백본을 동결한 채 메모리 보강 적응을 통해 학습되는 메모리 검색자이자 리더로 잔차형 SideNet를 도입한다.
- 토큰-투-청크 메모리 검색을 구현하여 상위-K개의 메모리 청크를 가져오고 메모리 보강 디코더 층에서 융합한다.
- 계층별 잔차를 통해 백본 LLM 정보를 SideNet으로 주입하는 교차 네트워크 잔차 연결을 적용한다.
- 표준 좌→우 언어 모델링 목적을 사용하는 메모리 보강 학습을 수행하여 메모리를 검색하고 융합하는 방법을 학습하게 한다.
실험 결과
연구 질문
- RQ1분리된 메모리 아키텍처가 메모리 노후화 없이 LLM이 장기 과거 맥락을 활용하도록 할 수 있는가?
- RQ2장기 맥락 작업에서 메모리 보강을 검색하고 융합하는 데 있어 경량 SideNet의 효율성은 어느 정도인가?
- RQ3무제한 메모리가 이용 가능할 때 장기 맥락 언어 모델링 및 인-컨텍스트 학습에서 얻는 이점은 무엇인가?
- RQ4메모리 크기와 청크 크기가 검색 품질 및 다운스트림 성능에 어떤 영향을 미치는가?
주요 결과
- LongMem은 긴 텍스트 모델링 벤치마크에서 강력한 장-context 베이스라인을 능가하고, PG-22에서 (-1.38 to -1.62) 및 ArXiv에서 (-1.0)의 상당한 퍼플렉시티 감소를 달성한다.
- ChapterBreak (AO3)에서 LongMem은 40.5%의 최첨단 접미사 식별 정확도를 달성하여 x-former 베이스라인 및 훨씬 더 많은 매개변수를 가진 GPT-3를 능가한다.
- 메모리 보강 인-컨텍스트 학습에서 Long Mem은 MemTRM 및 비메모리 베이스라인보다 주목할 만한 이득을 제공하며, 20샷 설정에서 5개 NLU 태스크에서 평균 정확도 약 +8.0를 달성한다.
- 메모리 시연(예: 추가 200개 시연)을 사용하면 LongMem은 SQuAD 개방형 생성 지표를 EM 26.77 및 F1 35.70으로 향상시킨다.
- 절단 연구와 같은 결과는 더 작은 청크 크기(예: csz = 2)가 ICL 태스크의 미세한 검색에 이익이 될 수 있으며, 메모리 크기(msz) 선택이 데이터셋 컨텍스트 길이와 정렬되어 최적의 퍼플렉시티 성능을 보임을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.