QUICK REVIEW

[논문 리뷰] Online Structured Laplace Approximations For Overcoming Catastrophic Forgetting

Hippolyt Ritter, Aleksandar Botev|arXiv (Cornell University)|2018. 05. 20.

Domain Adaptation and Few-Shot Learning인용 수 98

한 줄 요약

이 논문은 Kronecker 인자 분해 온라인 라플라스 근사를 도입하여 신경망의 재앙적 망각을 완화하고, 블록 대각 Kronecker-팩터 Hessian으로 온라인에서 가우스 사후분포를 업데이트합니다. 50개의 permuted MNIST 과제 시퀀스에서 90% 수준의 테스트 정확도 이상을 달성하며, 여러 베이스라인을 능가합니다.

ABSTRACT

We introduce the Kronecker factored online Laplace approximation for overcoming catastrophic forgetting in neural networks. The method is grounded in a Bayesian online learning framework, where we recursively approximate the posterior after every task with a Gaussian, leading to a quadratic penalty on changes to the weights. The Laplace approximation requires calculating the Hessian around a mode, which is typically intractable for modern architectures. In order to make our method scalable, we leverage recent block-diagonal Kronecker factored approximations to the curvature. Our algorithm achieves over 90% test accuracy across a sequence of 50 instantiations of the permuted MNIST dataset, substantially outperforming related methods for overcoming catastrophic forgetting.

연구 동기 및 목표

신경망의 재앙적 망각을 완화하기 위한 베이지안 온라인 학습 프레임워크를 개발한다.
과정 간 사후를 추적하기 위해 Kronecker 팩터 라플라스 근사를 제안 및 구현한다.
현대 아키텍처에 맞게 방법을 확장하기 위해 블록 대각 Hessian 구조를 활용한다.
메모리와 가소성의 균형을 맞추기 위한 곡률 기반 하이퍼파라미터로 정규화 연구를 탐구한다.

제안 방법

추정 평균 μt와 정밀도 Λt로 특징지어지는 근사 가우스 사후분포 q(θ|φt)의 베이지안 온라인 학습을 수식화한다.
(i) log p(Dt+1|θ) + log q(θ|φt)를 최대화하여 μt+1를 업데이트하는 2단계 업데이트를 사용한다; (ii) Λt+1 = Ht+1(μt+1) + Λt를 설정하는데, 이는 새로운 데이터의 로그 가능도(log-likelihood)의 Hessian을 이용한다.
Λt가 PSD를 보장하도록 Fisher Information 기반 양의 준정부호 행렬로 Hessian을 근사한다.
각 층의 곡률이 Hl =Ql ⊗ Hl이 되도록 블록 대각 Kronecker 팩터 Hessian을 채택하여 vec(Wl−Wl*)를 통한 효율적 업데이트를 가능하게 한다.
사후분포를 층 간 매트릭스 노멀 분포로 나타내고 층 내의 곡률 상호작용을 층 간이 아니라 층 내에서 유지한다.
근사 사후분포의 폭을 제어하기 위한 Hessian 위에 정규화 승수 λ를 도입한다: Λt+1 = λ Ht+1(μt+1) + Λt.

실험 결과

연구 질문

RQ1온라인 라플라스 근사가 Kronecker-팩터 곡률과 함께 긴 과제 시퀀스에서 신경망의 망각을 효과적으로 완화할 수 있는가?
RQ2층 내 상호작용(Kronecker 팩터링)을 포함하는 것이 대각 근사보다 지속 학습에서 더 우수한가?
RQ3정규화 하이퍼파라미터 λ가 온라인 지속 학습에서 기억력 대 학습 가능성에 미치는 영향은 무엇인가?
RQ4제안된 방법이 EWC 및 SI와 비교할 때 시각 및 MNIST 파생 지속 학습 벤치마크에 얼마나 확장되는가?
RQ5과제별 곡률 재계산이 필요한가, 아니면 보존된 곡률로 성능이 손상 없이 충분한가?

주요 결과

Kronecker-팩터 온라인 라플라스는 50개의 permuted MNIST 과제에서 평균 테스트 정확도 90% 이상을 달성하며 공동 학습 성능에 근접한다.
Kronecker-팩터 곡률은 대각 곡률보다 오래된 과제를 더 잘 기억하도록 일관되게 우수하며 새로운 과제에서도 성능을 유지한다.
λ를 도입하면 사후분포의 폭을 조절하는 데 도움이 되며, permuted MNIST의 경우 λ≈3이 기억력과 새로운 과제 학습 간의 최적 균형을 제공한다.
대각형(EWC 유사) 근사는 Kronecker 팩터링된 접근법보다 성능이 떨어지며 층 내 가중치 상호작용의 중요성을 시사한다.
정규화는 Kronecker 팩터화에서도 여전히 유익하며, 더 나은 곡률 근사에서 이익이 더 커질 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.