Skip to main content
QUICK REVIEW

[논문 리뷰] Language Model Memory and Memory Models for Language

Benjamin L. Badger|arXiv (Cornell University)|2026. 02. 13.
Topic Modeling인용 수 0
한 줄 요약

이 논문은 표준 언어 모델 임베딩이 입력 정보를 거의 저장하지 않는 반면, 자동인코더는 거의 완벽한 기억을 저장하며, 정보가 풍부한 기억을 형성하고 해독하기 위해 결합 목표와 커리큘럼 학습을 갖춘 인코더-디코더 기억 모델을 도입한다.

ABSTRACT

The ability of machine learning models to store input information in hidden layer vector embeddings, analogous to the concept of `memory', is widely employed but not well characterized. We find that language model embeddings typically contain relatively little input information regardless of data and compute scale during training. In contrast, embeddings from autoencoders trained for input regeneration are capable of nearly perfect memory formation. The substitution of memory embeddings for token sequences leads to substantial computational efficiencies, motivating the introduction of a parallelizable encoder-decoder memory model architecture. Upon causal training these models contain information-poor embeddings incapable of arbitrary information access, but by combining causal and information retention objective functions they learn to form and decode information-rich memories. Training can be further streamlined by freezing a high fidelity encoder followed by a curriculum training approach where decoders first learn to process memories and then learn to additionally predict next tokens. We introduce the perspective that next token prediction training alone is poorly suited for accurate memory formation as the objective itself is non-invertible, motivating the use of combined objective functions for models where the entire input is not exposed.

연구 동기 및 목표

  • 다양한 학습 체제에서 언어 모델 임베딩에 얼마나 많은 입력 정보가 보존되는지 평가한다.
  • 인과 언어 모델, 검색 모델, 그리고 자동인코더를 기억 형성 및 역해가능성 측면에서 비교한다.
  • 임의의 입력 정보를 조회할 수 있도록 병렬화 가능한 인코더-디코더 기억 구조를 제안한다.
  • 얼려진 인코더, 커리큘럼 학습을 활용한 훈련 전략을 통해 효율성을 해치지 않으면서 기억 형성을 개선한다를 보여준다."
  • 탐색 가능한 기억 모델의 확장성을 확보하기 위해 사전학습된 LLM들을 기억 모델 디코더로 활용 가능성을 탐구한다.

제안 방법

  • 재구성 가능한 입력 기억 측정용으로 학습 가능한 디코더를 통해 임베딩을 역변환한다.
  • 엔트로피 비율과 해밍 기반 토큰 정확도 지표를 이용한 정보 정량화 프레임워크를 도입한다.
  • 병렬화 가능한 인코더-디코더 기억 모델을 개발하고 인과적 학습 및 결합 목표 함수로 평가한다.
  • 정보 보존과 다음 토큰 예측을 분리하기 위한 frozen-encoder 기억 모델과 커리큘럼 학습을 탐구한다.
  • 메모리 모델의 확장성을 평가하기 위해 사전학습된 대형 언어 모델들을 메모리 디코더로 사용해 모델 크기 간의 확장성을 평가한다.
  • 메모리 능력을 probe하기 위해 인코더-디코더 정보 보존, 복사 작업, 비어 있는 복사 작업의 세 가지 평가 모드를 적용한다.
Figure 1: Information retention experimental approach (left) and example training runs (right).
Figure 1: Information retention experimental approach (left) and example training runs (right).

실험 결과

연구 질문

  • RQ1인과 언어 모델이 기억 임베딩에 얼마나 많은 입력 정보를 보존하는가?
  • RQ2메모리 모델이 별개의 디코더에 의해 해독될 수 있는 정확하고 정보가 풍부한 기억을 형성하도록 학습될 수 있는가?
  • RQ3인코더-디코더 기억 아키텍처가 전체 맥락 모델과 비교할 만큼 계산적 이점과 기억 능력을 제공하는가?
  • RQ4학습 전략(예: frozen encoders, 커리큘럼 학습, 결합 목표)이 언어 모델링 성능을 해치지 않으면서 기억 형성을 최적화하는가?
  • RQ5사전학습된 대형 언어 모델이 기억 보강 인코더의 디코더로서 효과적으로 작동할 수 있는가?

주요 결과

  • 인과 언어 모델의 기억은 데이터와 컴퓨트 규모 전반에서 비교적 적은 입력 정보를 포함한다.
  • 입력 재생성용으로 훈련된 자동인코더는 매우 정보가 풍부한 기억을 형성하여 거의 완벽한 기억에 근접한다.
  • 결합 목표를 가진 병렬화 가능한 인코더-디코더 기억 아키텍처는 기억 형성을 개선하고 임의의 정보 접근을 가능하게 한다.
  • 커리큘럼 학습을 포함한 frozen encoder 기억 모델은 효율적인 학습과 견고한 기억 능력을 달성한다.
  • 인과 및 복사 목표의 결합으로 학습된 기억 모델은 다음 토큰을 예측하고 정보가 풍부한 기억을 저장/활용할 수 있지만, 정확한 성능은 아키텍처 선택과 학습 체제에 따라 달라진다.
  • 대형 사전학습 LLM의 디코더를 사용할 때 기억 모델의 정보 보존에서 모델 크기 증가에 따른 이점은 제한적이다.
Figure 2: Memory Model Architecture and $n_{ctx}=256$ per chunk, $s=4$ chunk causal training characteristics on FineWeb. Mixers are $d_{m}=512$ for encoders, $d_{m}=1024$ for decoders and Transformers $d_{m}=256$ and $d_{m}=512$ for compute equivalence.
Figure 2: Memory Model Architecture and $n_{ctx}=256$ per chunk, $s=4$ chunk causal training characteristics on FineWeb. Mixers are $d_{m}=512$ for encoders, $d_{m}=1024$ for decoders and Transformers $d_{m}=256$ and $d_{m}=512$ for compute equivalence.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.