Skip to main content
QUICK REVIEW

[논문 리뷰] Online Structured Laplace Approximations For Overcoming Catastrophic Forgetting

Hippolyt Ritter, Aleksandar Botev|arXiv (Cornell University)|2018. 05. 20.
Domain Adaptation and Few-Shot Learning인용 수 98
한 줄 요약

이 논문은 Kronecker 인자 분해 온라인 라플라스 근사를 도입하여 신경망의 재앙적 망각을 완화하고, 블록 대각 Kronecker-팩터 Hessian으로 온라인에서 가우스 사후분포를 업데이트합니다. 50개의 permuted MNIST 과제 시퀀스에서 90% 수준의 테스트 정확도 이상을 달성하며, 여러 베이스라인을 능가합니다.

ABSTRACT

We introduce the Kronecker factored online Laplace approximation for overcoming catastrophic forgetting in neural networks. The method is grounded in a Bayesian online learning framework, where we recursively approximate the posterior after every task with a Gaussian, leading to a quadratic penalty on changes to the weights. The Laplace approximation requires calculating the Hessian around a mode, which is typically intractable for modern architectures. In order to make our method scalable, we leverage recent block-diagonal Kronecker factored approximations to the curvature. Our algorithm achieves over 90% test accuracy across a sequence of 50 instantiations of the permuted MNIST dataset, substantially outperforming related methods for overcoming catastrophic forgetting.

연구 동기 및 목표

  • 신경망의 재앙적 망각을 완화하기 위한 베이지안 온라인 학습 프레임워크를 개발한다.
  • 과정 간 사후를 추적하기 위해 Kronecker 팩터 라플라스 근사를 제안 및 구현한다.
  • 현대 아키텍처에 맞게 방법을 확장하기 위해 블록 대각 Hessian 구조를 활용한다.
  • 메모리와 가소성의 균형을 맞추기 위한 곡률 기반 하이퍼파라미터로 정규화 연구를 탐구한다.

제안 방법

  • 추정 평균 μt와 정밀도 Λt로 특징지어지는 근사 가우스 사후분포 q(θ|φt)의 베이지안 온라인 학습을 수식화한다.
  • (i) log p(Dt+1|θ) + log q(θ|φt)를 최대화하여 μt+1를 업데이트하는 2단계 업데이트를 사용한다; (ii) Λt+1 = Ht+1(μt+1) + Λt를 설정하는데, 이는 새로운 데이터의 로그 가능도(log-likelihood)의 Hessian을 이용한다.
  • Λt가 PSD를 보장하도록 Fisher Information 기반 양의 준정부호 행렬로 Hessian을 근사한다.
  • 각 층의 곡률이 Hl =Ql ⊗ Hl이 되도록 블록 대각 Kronecker 팩터 Hessian을 채택하여 vec(Wl−Wl*)를 통한 효율적 업데이트를 가능하게 한다.
  • 사후분포를 층 간 매트릭스 노멀 분포로 나타내고 층 내의 곡률 상호작용을 층 간이 아니라 층 내에서 유지한다.
  • 근사 사후분포의 폭을 제어하기 위한 Hessian 위에 정규화 승수 λ를 도입한다: Λt+1 = λ Ht+1(μt+1) + Λt.

실험 결과

연구 질문

  • RQ1온라인 라플라스 근사가 Kronecker-팩터 곡률과 함께 긴 과제 시퀀스에서 신경망의 망각을 효과적으로 완화할 수 있는가?
  • RQ2층 내 상호작용(Kronecker 팩터링)을 포함하는 것이 대각 근사보다 지속 학습에서 더 우수한가?
  • RQ3정규화 하이퍼파라미터 λ가 온라인 지속 학습에서 기억력 대 학습 가능성에 미치는 영향은 무엇인가?
  • RQ4제안된 방법이 EWC 및 SI와 비교할 때 시각 및 MNIST 파생 지속 학습 벤치마크에 얼마나 확장되는가?
  • RQ5과제별 곡률 재계산이 필요한가, 아니면 보존된 곡률로 성능이 손상 없이 충분한가?

주요 결과

  • Kronecker-팩터 온라인 라플라스는 50개의 permuted MNIST 과제에서 평균 테스트 정확도 90% 이상을 달성하며 공동 학습 성능에 근접한다.
  • Kronecker-팩터 곡률은 대각 곡률보다 오래된 과제를 더 잘 기억하도록 일관되게 우수하며 새로운 과제에서도 성능을 유지한다.
  • λ를 도입하면 사후분포의 폭을 조절하는 데 도움이 되며, permuted MNIST의 경우 λ≈3이 기억력과 새로운 과제 학습 간의 최적 균형을 제공한다.
  • 대각형(EWC 유사) 근사는 Kronecker 팩터링된 접근법보다 성능이 떨어지며 층 내 가중치 상호작용의 중요성을 시사한다.
  • 정규화는 Kronecker 팩터화에서도 여전히 유익하며, 더 나은 곡률 근사에서 이익이 더 커질 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.