Skip to main content
QUICK REVIEW

[논문 리뷰] Indian Buffet Neural Networks for Continual Learning

Samuel Kessler, Vu Nguyen|arXiv (Cornell University)|2019. 12. 04.
Domain Adaptation and Few-Shot Learning참고 문헌 13인용 수 7
한 줄 요약

이 논문은 지속적 학습에서 네트워크 복잡도를 자동으로 동적으로 조정할 수 있도록 베이지안 신경망(BNNs)의 구조에 인디안 빵가게 프로세스(IBP) 사전확률을 제안한다. 계층적-IBP(H-IBP)를 사용해 층 간에 구조적 사전확률을 공유하고, 베르누이 및 베타 분포의 재생성(reparameterization)을 적용한 온라인 변분 추론을 통해 자원 할당을 태스크 간에 적응시킴으로써 과적합과 과소적합을 줄이고, 지속적 학습 벤치마크에서 경쟁적인 성능을 달성한다.

ABSTRACT

We place an Indian Buffet process (IBP) prior over the structure of a Bayesian Neural Network (BNN), thus allowing the complexity of the BNN to increase and decrease automatically. We further extend this model such that the prior on the structure of each hidden layer is shared globally across all layers, using a Hierarchical-IBP (H-IBP). We apply this model to the problem of resource allocation in Continual Learning (CL) where new tasks occur and the network requires extra resources. Our model uses online variational inference with reparameterisation of the Bernoulli and Beta distributions, which constitute the IBP and H-IBP priors. As we automatically learn the number of weights in each layer of the BNN, overfitting and underfitting problems are largely overcome. We show empirically that our approach offers a competitive edge over existing methods in CL.

연구 동기 및 목표

  • 고정된 신경망 아키텍처가 지속적 학습에서 치명적인 잊힘(catastrophic forgetting)이나 비효율을 초래하는 문제를 해결하기 위해.
  • 수동적인 아키텍처 설계 없이 태스크 간에 네트워크 파라미터의 자동 증가 및 제거를 가능하게 하기 위해.
  • 과적합과 과소적합을 줄이고 태스크 요구사항에 맞게 모델 복잡도를 동적으로 조정함으로써 일반화 능력을 향상시키기 위해.
  • 지속적 학습을 지원하는 구조적 베이지안 사전확률을 갖춘 확장 가능한 온라인 추론 프레임워크를 개발하기 위해.

제안 방법

  • 베이지안 신경망의 가중치에 대해 인디안 빵가게 프로세스(IBP) 사전확률을 적용하여 데이터 기반의 히든 유닛 자동 증가를 허용한다.
  • 모든 히든 층 간에 구조적 사전확률을 전역적으로 공유하기 위해 IBP를 계층적-IBP(H-IBP)로 확장하여 파라미터 효율성과 일관성을 향상시킨다.
  • IBP 및 H-IBP 사전확률의 효율적 사후 근사 추정을 위해 재생성 기반 온라인 변분 추론을 활용한다.
  • 베르누이 및 베타 분포의 재생성 기반 기울기를 사용하여 미분 가능한 추론을 통한 엔드 투 엔드 학습을 가능하게 한다.
  • 데이터 복잡도에 맞게 태스크별로 각 층의 활성 가중치 수를 학습함으로써 자원 할당을 동적으로 조정한다.

실험 결과

연구 질문

  • RQ1IBP 사전확률은 아키텍처 사전 설정 없이 지속적 학습에서 네트워크 용량의 자동, 데이터 기반 증가를 가능하게 할 수 있는가?
  • RQ2층 간에 계층적 구조적 사전확률을 공유할 경우 지속적 학습에서 모델 성능과 파라미터 효율성에 어떤 영향을 미치는가?
  • RQ3재생성 기반 IBP 사전확률을 사용한 온라인 변분 추론이 지속적 학습 환경에서 과적합과 과소적합을 어느 정도 줄이는가?
  • RQ4기존의 지속적 학습 베이스라인 대비 제안된 방법은 정확도와 적응 가능성 측면에서 어떻게 비교되는가?

주요 결과

  • 모델은 각 층의 활성 가중치 수를 자동으로 학습하여 넓이에 대한 수동적인 아키텍처 설계나 하이퍼파라미터 튜닝이 필요 없어진다.
  • H-IBP의 사용은 층 간 일관성 있고 효율적인 구조적 사전확률을 제공하여 일반화 능력을 향상시키고 중복을 줄인다.
  • 재생성 기반 IBP 및 H-IBP 사전확률을 사용한 온라인 변분 추론은 지속적 학습 중 확장 가능하고 실시간 적응을 가능하게 한다.
  • 실험 결과는 기존의 지속적 학습 방법과 비교해 경쟁적인 성능을 보이며, 과적합과 과소적합이 감소한 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.