QUICK REVIEW

[논문 리뷰] Statistical Mechanical Analysis of Catastrophic Forgetting in Continual Learning with Teacher and Student Networks

Haruka Asanuma, Shiro Takagi|arXiv (Cornell University)|2021. 05. 16.

Domain Adaptation and Few-Shot Learning참고 문헌 17인용 수 8

한 줄 요약

이 논문은 지도-학습자 신경망 설정을 사용하여 연속 학습에서 치명적인 잊음(catastrophic forgetting)을 이론적으로 분석하기 위한 통계역학적 프레임워크를 개발한다. 잊음은 입력 분포 간의 겹침이 적을수록 작아지고, 목표 작업 간의 관계가 매우 유사할수록 최소화되며, 계속 학습하는 동안 과거 작업 성능이 일시적으로 떨어졌다가 복구되는 새로운 '오버슈트(overshoot)' 현상이 발생하는 것으로 밝혀졌다.

ABSTRACT

When a computational system continuously learns from an ever-changing environment, it rapidly forgets its past experiences. This phenomenon is called catastrophic forgetting. While a line of studies has been proposed with respect to avoiding catastrophic forgetting, most of the methods are based on intuitive insights into the phenomenon, and their performances have been evaluated by numerical experiments using benchmark datasets. Therefore, in this study, we provide the theoretical framework for analyzing catastrophic forgetting by using teacher-student learning. Teacher-student learning is a framework in which we introduce two neural networks: one neural network is a target function in supervised learning, and the other is a learning neural network. To analyze continual learning in the teacher-student framework, we introduce the similarity of the input distribution and the input-output relationship of the target functions as the similarity of tasks. In this theoretical framework, we also provide a qualitative understanding of how a single-layer linear learning neural network forgets tasks. Based on the analysis, we find that the network can avoid catastrophic forgetting when the similarity among input distributions is small and that of the input-output relationship of the target functions is large. The analysis also suggests that a system often exhibits a characteristic phenomenon called overshoot, which means that even if the learning network has once undergone catastrophic forgetting, it is possible that the network may perform reasonably well after further learning of the current task.

연구 동기 및 목표

현재 경험적 및 히우리스틱 방법에 의해 지배되는 연속 학습에서의 치명적인 잊음 분석을 위한 이론적 프레임워크를 수립하는 것.
지도-학습자 학습 설정에서 입력 분포 겹침과 입력-출력 관계 유사성(가중치 공간 유사성)을 통해 작업 유사성을 모델링하는 것.
순차적 작업 학습 중 학생 네트워크가 치명적인 잊음을 피할 수 있는 조건을 분석적으로 유도하는 것.
일반화 오차 궤적에서 비단조화적인 잊음 동역학, 예를 들어 오버슈트와 같은 현상의 발생을 조사하는 것.

제안 방법

연구는 두 개의 순차적 작업에 대해 확률적 경사하강법(SGD)으로 훈련된 단일층 선형 학생 네트워크를 사용한다.
교사 네트워크는 각 작업에 대한 진정한 입력-출력 관계를 정의하며, 내적곱을 통해 가중치 공간 유사성을 계산하는 데 사용된다.
입력 공간 유사성은 입력 공간의 공통 부분공간 내에서 입력 데이터 분포의 겹침으로 측정된다.
일반화 오차는 입력이 가우시안 분포를 따르고 가중치 초기화가 등방향일 것이라 가정하여 통계역학을 사용해 분석적으로 유도된다.
숨은 만델드 모델을 통해 비가우시안 입력으로의 확장을 다루며, 일반화에 영향을 주는 데 입력 차원 대신 내재 차원성이 중요한 역할을 한다.
수치 시뮬레이션을 통해 이론적 분석을 검증하며, 특히 과다 매개변수화와 학습률이 잊음 동역학에 미치는 영향을 분석한다.

실험 결과

연구 질문

RQ1두 개의 순차적 작업을 학습할 때 학생 네트워크가 치명적인 잊음을 피할 수 있는 조건은 무엇인가?
RQ2입력 분포 유사성과 입력-출력 관계 유사성(가중치 공간 유사성)이 함께 잊음 행동에 어떻게 영향을 미치는가?
RQ3일시적으로 성능이 떨어졌다가 복구되는 오버슈트 현상은 무엇에 의해 발생하는가?
RQ4실세계 데이터의 비가우시안 성격이 은닉 만델드 모델을 통해 모의될 경우, 잊음과 회복에 대한 이론적 예측은 어떻게 변화하는가?

주요 결과

입력 분포 간의 유사성이 낮고, 목표 작업 관계 간의 유사성(가중치 공간 유사성)이 높을수록 치명적인 잊음이 최소화된다.
학습률이 클 경우 오버슈트 현상이 발생하며, 이는 계속 학습하는 동안 과거 작업 성능이 일시적으로 저하되었다가 복구되는 것을 의미한다.
과다 매개변수화는 학생 네트워크의 일반화 오차를 증가시키며, 오차가 처음에 최소화되지 않았다면 이는 실제 잊음 감소로 이어질 수 있다.
은닉 만델드 모델에서는 입력 차원 대비 내재 차원성이 더 중요해지며, 이는 만델드 구조가 잊음 동역학을 조절한다는 것을 시사한다.
비가우시안 입력 하에서 일반화 오차 수렴에 대한 이론적 결과는 정성적으로 강인하지만, 빠른 학습으로 인해 오버슈트의 동역학은 강화될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.