QUICK REVIEW

[논문 리뷰] What learning algorithm is in-context learning? Investigations with linear models

Ekin Akyürek, Dale Schuurmans|arXiv (Cornell University)|2022. 11. 28.

Neural Networks and Applications인용 수 85

한 줄 요약

본 논문은 트랜스포머가 표준 선형-학습 알고리즘(경사 하강법과 닫힌 형태의 릿지 회귀)을 맥락 내에서 구현할 수 있음을 입증하고, 훈련된 맥락 내 학습자들이 다양한 조건에서 이러한 알고리즘처럼 작동함을 보여주며 ICL을 베이지안 및 최소-노름 예측기와 연결한다.

ABSTRACT

Neural sequence models, especially transformers, exhibit a remarkable capacity for in-context learning. They can construct new predictors from sequences of labeled examples $(x, f(x))$ presented in the input without further parameter updates. We investigate the hypothesis that transformer-based in-context learners implement standard learning algorithms implicitly, by encoding smaller models in their activations, and updating these implicit models as new examples appear in the context. Using linear regression as a prototypical problem, we offer three sources of evidence for this hypothesis. First, we prove by construction that transformers can implement learning algorithms for linear models based on gradient descent and closed-form ridge regression. Second, we show that trained in-context learners closely match the predictors computed by gradient descent, ridge regression, and exact least-squares regression, transitioning between different predictors as transformer depth and dataset noise vary, and converging to Bayesian estimators for large widths and depths. Third, we present preliminary evidence that in-context learners share algorithmic features with these predictors: learners' late layers non-linearly encode weight vectors and moment matrices. These results suggest that in-context learning is understandable in algorithmic terms, and that (at least in the linear case) learners may rediscover standard estimation algorithms. Code and reference implementations are released at https://github.com/ekinakyurek/google-research/blob/master/incontext.

연구 동기 및 목표

트랜스포머의 맥락 내 학습(ICL)이 암시적 학습 알고리즘에 해당하는지 이해한다.
트랜스포머가 맥락 내에서 구현할 수 있는 표준 선형 알고리즘을 결정한다.
깊이, 너비 및 학습 데이터의 노이즈가 ICL 동작 및 고전 예측기와의 정렬에 어떤 영향을 미치는지 평가한다.
가중치 벡터 및 모멘트 행렬과 같은 중간 양이 맥락 표현에 인코딩되어 있는지 탐구한다.

제안 방법

선형 모델의 경사 하강법의 단일 단계를 O(d)개의 히든 유닛과 일정 깊이로 구현할 수 있음을 구성적으로 증명한다.
선형 모델에 해당하는 릿지 회귀를 구현하기 위해 Sherman– Morrison 업데이트를 단일로 수행할 수 있음을 구성적으로 증명한다. O(d^2) 히든 유닛과 일정 깊이.
깊이, 히든 크기 및 노이즈를 다변량으로 바꿔가며 ICL 예측을 경사 하강법, 릿지 회귀, 일반 최소제곱에 대해 실증적으로 비교한다.
행동 지표를 사용하여 ICL과 표준 예측기 간의 일치를 계량적으로 평가한다: 제곱 예측 차이(SPD)와 암묵적 가중치 차이(ILWD).
중간 표현을 조사하여 X^T Y와 w_OLS와 같은 양이 히든 상태에 인코딩되어 있는지 확인한다.

실험 결과

연구 질문

RQ1트랜스포머가 맥락 내 학습 설정에서 표준 선형 학습 알고리즘(예: 경사 하강법, 릿지 회귀)을 구현할 수 있는가?
RQ2학습된 맥락 내 학습자의 예측이 서로 다른 깊이, 너비 및 데이터 노이즈 하에서 고전적 예측기(OLS, 릿지, GD) 및 베이지안 추정기와 정렬되는가?
RQ3맥락 학습자들이 어떤 중간 양을 인코딩하며, 네트워크의 어디에서 이러한 양이 나타나는가?
RQ4모델 용량(깊이/히든 크기)이 맥락 학습자의 알고리즘적 동작에 어떤 영향을 미치는가( GD, 릿지, OLS 간의 위상 전이)?

주요 결과

트랜스포머는 O(d) 히든 유닛과 일정 깊이에서 선형 회귀의 경사 하강법 단일 단계를 계산할 수 있다.
트랜스포머는 O(d^2) 히든 유닛과 일정 깊이에서 릿지 회귀를 구현하기 위해 Sherman–Morrison 업데이트를 단일로 수행할 수 있다.
ICL 예측은 경사 하강법, 릿지 회귀 및 정확한 최소제곱 예측과 밀접하게 일치하고, 깊이와 노이즈에 따라 이들 사이를 전이한다.
더 큰 너비와 깊이를 가지면 ICL이 선형 모델에 대한 베이지안 추정기에 수렴한다.
X^T Y와 w_OLS와 같은 중간 양은 히든 표현에서 해독될 수 있어 네트워크가 의미 있는 알고리즘적 양을 계산함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.