QUICK REVIEW

[논문 리뷰] Uncertainty-guided Continual Learning with Bayesian Neural Networks

Sayna Ebrahimi, Mohamed Elhoseiny|arXiv (Cornell University)|2019. 06. 06.

Domain Adaptation and Few-Shot Learning참고 문헌 45인용 수 26

한 줄 요약

이 논문은 연속 학습에서 기존 작업 데이터에 접근할 수 없고 용량이 고정된 모델에서 치명적인 잊음 문제를 완화하기 위해 가중치의 불확실성에 기반해 학습률을 적응적으로 조정하는 불확실성 유도 연속 베이지안 신경망(UCB)을 제안한다. 베이지안 신경망을 사용해 파am터의 불확실성을 추정함으로써 UCB는 중요도를 암묵적으로 식별하고, 테스트 시 작업 레이블이 필요로 하지 않으면서도 다양한 벤치마크에서 최신 기술 수준 또는 경쟁력 있는 성능을 달성한다.

ABSTRACT

Continual learning aims to learn new tasks without forgetting previously learned ones. This is especially challenging when one cannot access data from previous tasks and when the model has a fixed capacity. Current regularization-based continual learning algorithms need an external representation and extra computation to measure the parameters' extit{importance}. In contrast, we propose Uncertainty-guided Continual Bayesian Neural Networks (UCB), where the learning rate adapts according to the uncertainty defined in the probability distribution of the weights in networks. Uncertainty is a natural way to identify extit{what to remember} and extit{what to change} as we continually learn, and thus mitigate catastrophic forgetting. We also show a variant of our model, which uses uncertainty for weight pruning and retains task performance after pruning by saving binary masks per tasks. We evaluate our UCB approach extensively on diverse object classification datasets with short and long sequences of tasks and report superior or on-par performance compared to existing approaches. Additionally, we show that our model does not necessarily need task information at test time, i.e. it does not presume knowledge of which task a sample belongs to.

연구 동기 및 목표

기존 작업 데이터에 접근할 수 없고 용량이 고정된 환경에서 연속 학습에서 치명적인 잊음 문제를 해결한다.
명시적이고 작업에 종속된 중요도 측정 기준과 추가 계산이 필요한 정규화 기반 방법의 한계를 극복한다.
베이지안 신경망 내부의 자연스러운 불확실성에 기반해 중요 파라미터를 암묵적으로 식별하는 방법을 개발한다.
테스트 시 작업 정보가 필요 없이 효과적인 연속 학습을 가능하게 하여 실제 적용에 적합한 '단일 헤드' 배포를 지원한다.
학습된 이진 마스크를 사용해 중요한 파라미터를 동결함으로써 영구적 지식 유지가 가능한 프루닝 변형(UKB-P)을 도입한다.

제안 방법

각 가중치를 분포(평균 및 분산)로 표현하는 변분 추론을 사용한 베이지안 신경망을 사용하여 파am터의 불확실성을 캡처한다.
각 가중치의 학습률을 그 불확실성에 반비례하게 조정한다: 높은 불확실성은 더 큰 갱신을 允허하고, 낮은 불확실성은 변화를 제한한다.
각 작업 이후의 가중치 사후 분포를 활용해 후속 학습을 안내하며, 낮은 불확실성의 파라미터에 지식을 유지한다.
높은 중요도의 파라미터를 저장된 이진 마스크를 사용해 동결하는 하드-스위치 변형인 UCB-P를 도입한다.
모든 작업에 걸쳐 단일 분류 헤드를 사용해 훈련 및 평가하여 추론 시 작업 식별 정보 없이도 일반화 정확도 평가가 가능하도록 한다.
변분 추론에서 기울기 추정을 위해 몬테카를로 샘플링을 사용하여 사후 분포를 효율적으로 근사한다.

실험 결과

연구 질문

RQ1베이지안 신경망 가중치의 불확실성은 연속 학습에서 파라미터 중요도의 자연스럽고 암묵적인 측정 기준으로 기능할 수 있는가?
RQ2불확실성 기반 학습률 조정은 명시적 중요도 정규화보다 치명적인 잊음 문제를 더 효과적으로 완화하는가?
RQ3이 방법은 테스트 시 작업 정보가 없이도 장기적인 작업 시퀀스와 다양한 데이터셋에 일반화 가능한가?
RQ4표준 정확도 및 일반화 정확도 지표에서 UCB는 HAT 및 EWC와 같은 최신 기술 수준의 연속 학습 방법과 비교해 어떻게 성능을 내는가?
RQ5불확실성 기반 프루닝은 성능을 유지하면서 메모리 오버헤드를 줄일 수 있으며, 이중 마스크를 통한 영구적 지식 유지가 가능한가?

주요 결과

UCB는 테스트 시 작업 정보가 없이도 2-스플릿 MNIST에서 98.7%의 일반화 정확도를 달성하여 BBB-FT(98.1%)를 능가하고 다중 헤드 성능과 동등하다.
퍼뮤티드 MNIST에서는 UCB가 92.5%의 일반화 정확도를 기록하여 BBB-FT(86.1%)를 크게 앞서며 HAT와 같은 강력한 기준 모델을 초월한다.
어려운 8개 작업의 CIFAR 시퀀스에서는 UCB가 76.8%의 일반화 정확도를 달성하여 BBB-FT(47.6%)를 능가하고 PNN보다 3.6%p 높다.
UCB-P는 8개 작업 시퀀스에서 84.0%의 정확도를 기록하여 PNN보다 3.6%p 높으며, 이진 마스크를 통한 효과적인 지식 유지 능력을 입증한다.
표준 정확도에서 일반화 정확도로의 성능 저하가 최소 (≤4.1%)로 유지되어 단일 헤드 환경에서의 클래스 혼동에 대해 강건함을 보였다.
다중 헤드에서 단일 헤드 추론으로 전환할 때 정확도가 단지 0.3%p 감소하여 강력한 일반화 능력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.