[논문 리뷰] Schema-learning and rebinding as mechanisms of in-context learning and emergence
논문은 컨텍스트 학습(ICL)이 클론 구조화 인과 그래프(CSCG)로 달성될 수 있음을 보여주고, 스키마 학습, 템플릿 회로, 검색, 재바인딩을 통해 ICL 메커니즘을 설명하며 변환기와의 유사성을 주장한다.
In-context learning (ICL) is one of the most powerful and most unexpected capabilities to emerge in recent transformer-based large language models (LLMs). Yet the mechanisms that underlie it are poorly understood. In this paper, we demonstrate that comparable ICL capabilities can be acquired by an alternative sequence prediction learning method using clone-structured causal graphs (CSCGs). Moreover, a key property of CSCGs is that, unlike transformer-based LLMs, they are {\em interpretable}, which considerably simplifies the task of explaining how ICL works. Specifically, we show that it uses a combination of (a) learning template (schema) circuits for pattern completion, (b) retrieving relevant templates in a context-sensitive manner, and (c) rebinding of novel tokens to appropriate slots in the templates. We go on to marshall evidence for the hypothesis that similar mechanisms underlie ICL in LLMs. For example, we find that, with CSCGs as with LLMs, different capabilities emerge at different levels of overparameterization, suggesting that overparameterization helps in learning more complex template (schema) circuits. By showing how ICL can be achieved with small models and datasets, we open up a path to novel architectures, and take a vital step towards a more general understanding of the mechanics behind this important capability.
연구 동기 및 목표
- ICL이 비-트랜스포머 시퀀스 모델(CSCGs)에서 어떻게 발생할 수 있는지와 그 메커니즘이 트랜스포머와 어떻게 관련되는지 설명한다.
- 핵심 ICL 프로세스로서 템플릿(스키마) 학습과 재바인딩을 입증한다.
- 과잉 매개화, 스키마 형성, 컨텍스트 검색이 ICL과 다양한 데이터셋에서의 출현을 어떻게 구동하는지 보여준다.]
제안 방법
- Clone-structured causal graphs(CSCGs)와 그들의 방출(emission) 및 전이(transition) 구조를 도입한다.
- 기존 스키마를 새로운 관찰에 매핑하기 위한 재바인딩을 정의하고 구현한다.
- 예측 놀라움(predictive surprise)을 기반으로 방출 행렬만 업데이트하는 빠른 재바인딩 알고리즘을 제안한다.
- 작업 완료를 위한 스키마를 검색하고 바인딩하기 위한 MAP 추론과 EM 기반 업데이트를 시연한다.
- CSCG 메커니즘을 트랜스포머의 ICL과 연관시키고 아키텍처 설계에 대한 시사점을 논의한다.]
- research_questions: [
- CSCGs가 표준 ICL 벤치마크에서 LLM과 비교 가능한 ICL을 달성할 수 있는가?
- 템플릿 회로(스키마)와 재바인딩이 맥락 의존적 일반화에 어떻게 기여하는가?
- 학습 및 emergent ICL 능력에서 과잉 매개화의 역할은 무엇인가?
- 재바인딩이 학습된 알고리즘을 새로운 토큰과 프롬프트로 빠르게 전달할 수 있게 하는가?
- CSCG 메커니즘이 제로샷 학습 및 지시 기반 검색과 같은 트랜스포머 ICL과 일반화되는가?
![Figure 1: A . Inducing the structure of the room ( cognitive maps ) from sequential sensory observations is challenging because of perceptual aliasing – local observations do not identify locations uniquely. B . Cloned hidden Markov models (HMMs) [ 7 ] . Each observation is mapped to multiple clone](https://ar5iv.labs.arxiv.org/html/2307.01201/assets/x1.png)
실험 결과
연구 질문
- RQ1CSCGs가 표준 ICL 벤치마크에서 LLM과 비교 가능한 ICL을 달성할 수 있는가?
- RQ2템플릿 회로(스키마)와 재바인딩이 맥락 의존적 일반화에 어떻게 기여하는가?
- RQ3학습 및 emergent ICL 능력에서 과잉 매개화의 역할은 무엇인가?
- RQ4재바인딩이 학습된 알고리즘을 새로운 토큰과 프롬프트로 빠르게 전달할 수 있게 하는가?
- RQ5CSCG 메커니즘이 제로샷 학습 및 지시 기반 검색과 같은 트랜스포머 ICL과 일반화되는가?
주요 결과
- CSCGs는 컨텍스트 의존적 잠재 표현 및 추이적 일반화를 통해 ICL 유사 동작을 재현할 수 있다.
- 템플릿(스키마) 학습과 맥락에 민감한 검색이 효과적인 프롬프트 완성 및 작업 수행을 가능하게 한다.
- 새로운 토큰을 학습된 슬롯에 재바인딩함으로써 동일한 템플릿을 전혀 새로운 입력에 적용할 수 있다.
- 과잉 매개화는 잠재 개념의 구분을 향상시키고 여러 작업에서 ICL 성능을 향상시킨다.
- GINC, LIALT, 및 dax 스타일 테스트에 대한 실험은 제안된 메커니즘을 지지하고 모델 용량 및 데이터 패턴과 연관된 출현을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.