QUICK REVIEW

[논문 리뷰] Reinforced Continual Learning

Ju Xu, Zhanxing Zhu|arXiv (Cornell University)|2018. 05. 31.

Domain Adaptation and Few-Shot Learning참고 문헌 14인용 수 152

한 줄 요약

본 논문은 Reinforced Continual Learning (RCL)을 도입하여 새로운 작업마다 신경망을 적응적으로 확장하고, 검증 정확도는 최대화하고 모델 복잡도와 잊힘은 최소화하는 것을 목표로 한다. RCL은 순차 MNIST 변형 및 증가 CIFAR-100에서 몇몇 베이스라인보다 적은 추가 매개변수로 성능을 개선한다.

ABSTRACT

Most artificial intelligence models have limiting ability to solve new tasks faster, without forgetting previously acquired knowledge. The recently emerging paradigm of continual learning aims to solve this issue, in which the model learns various tasks in a sequential fashion. In this work, a novel approach for continual learning is proposed, which searches for the best neural architecture for each coming task via sophisticatedly designed reinforcement learning strategies. We name it as Reinforced Continual Learning. Our method not only has good performance on preventing catastrophic forgetting but also fits new tasks well. The experiments on sequential classification tasks for variants of MNIST and CIFAR-100 datasets demonstrate that the proposed approach outperforms existing continual learning alternatives for deep networks.

연구 동기 및 목표

작업이 도착함에 따라 네트워크 용량을 적응적으로 확장하여 확장 가능한 continual 학습을 구동한다.
추가로 학습하는 매개변수들만 훈련시키면서 이전 작업 매개변수를 고정하여 잊힘을 방지한다.
작업당 가까운 최적의 아키텍처 확장을 자동으로 탐색하기 위해 강화학습을 활용한다.

제안 방법

컨트롤러(LSTM)가 새 작업에 대해 층별로 얼마나 많은 필터/노드를 추가할지 결정하는 일련의 행동을 생성한다.
작업 네트워크는 적응적으로 확장되며, 새로운 작업을 위한 매개변수만 학습되어 의미 변화(semantic drift)를 방지한다.
보상은 검증 정확도와 네트워크 복잡도를 결합하여 성능과 효율성의 균형을 맞춘다 (R_t = A_t + α C_t).
정책 기울기(policy gradient)는 Actor-Critic 프레임워크를 통해 컨트롤러와 가치 네트워크를 업데이트하여 기대 보상을 최대화한다.
훈련은 작업별로 진행되며, 컨트롤러의 출력에 따라 네트워크를 확장하고 이전 작업 매개변수를 고정한다.

실험 결과

연구 질문

RQ1연속 학습에서 잊힘을 완화하기 위해 최적의 아키텍처 확장을 강화학습으로 효과적으로 탐색할 수 있는가?
RQ2적응적 확장이 순차 작업에서 정확도와 모델 복잡도에 어떤 영향을 미치는가?
RQ3RCL은 고정 크기나 다른 확장 가능 아키텍처보다 적은 추가 매개변수를 사용하면서 잊힘을 더 잘 방지하는가?

주요 결과

RCL은 MNIST 순열, MNIST 혼합, 및 Incremental CIFAR-100에서 PGN 및 DEN보다 더 나은 정확도와 더 작은 모델 크기를 달성한다.
RCL은 CIFAR-100에 대해 PGN 및 DEN과 비교했을 때 추가 매개변수를 크게 줄인다(예: CIFAR-100의 42% 및 53% 감소).
잊힘은 RCL 및 PGN에서 감소하는 반면, 고정 크기 접근 방식은 치명적 잊힘을 보인다. DEN은 이전 매개변수를 재학습하기 때문에 잊힘을 완전히 방지하지 못한다.
α(모델 복잡도에 대한 가중치)를 증가시키면 매개변수가 줄어들지만 정확도가 약간 감소할 수 있어 성능과 크기 사이의 트레이드오프를 가능하게 한다.
RCL은 DEN보다 더 적은 하이퍼파라미터를 사용하고 설정 간 더 안정적인 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.