QUICK REVIEW

[논문 리뷰] Lifelong Learning with Dynamically Expandable Networks

Jaehong Yoon, Eunho Yang|arXiv (Cornell University)|2017. 08. 04.

Domain Adaptation and Few-Shot Learning참고 문헌 14인용 수 181

한 줄 요약

DEN은 순차적으로 도입되는 일련의 작업을 학습하기 위해 동적으로 확장하고 선택적으로 재학습하는 심층 네트워크로, 매개변수 수가 훨씬 적으면서도 배치학습 모델과 동등하거나 더 나은 성능을 달성하며 의미 drift 없이 작동한다.

ABSTRACT

We propose a novel deep network architecture for lifelong learning which we refer to as Dynamically Expandable Network (DEN), that can dynamically decide its network capacity as it trains on a sequence of tasks, to learn a compact overlapping knowledge sharing structure among tasks. DEN is efficiently trained in an online manner by performing selective retraining, dynamically expands network capacity upon arrival of each task with only the necessary number of units, and effectively prevents semantic drift by splitting/duplicating units and timestamping them. We validate DEN on multiple public datasets under lifelong learning scenarios, on which it not only significantly outperforms existing lifelong learning methods for deep networks, but also achieves the same level of performance as the batch counterparts with substantially fewer number of parameters. Further, the obtained network fine-tuned on all tasks obtained significantly better performance over the batch models, which shows that it can be used to estimate the optimal network structure even when all tasks are available in the first place.

연구 동기 및 목표

연속적으로 도착하는 작업에서 심층 네트워크의 평생 학습을 동기 부여하고 다루는 것.
필요할 때만 기존 구성요소를 선택적으로 재학습하고 용량을 확장하는 모델을 개발하는 것.
타임스탬프가 부여된 유닛과 적응적 분할을 통해 의미 drift(카타스트로픽 포기)을 방지하는 것.
배치 또는 정적 생애 학습 기준선에 비해 더 적은 매개변수로도 경쟁력 있는 작업 성능을 달성하는 것.
모든 작업이 나중에 모두 이용 가능해도 최적 네트워크 구조를 추정할 수 있음을 입증하는 것.

제안 방법

선택적 재학습, 동적 확장 및 단위의 분할/중복을 융합하는 Dynamically Expandable Networks(DEN)을 도입한다.
sparse 및 group-sparse 정규화를 사용하여 관련 서브네트워크를 식별하고 각 층당 추가할 뉴런의 수(Eq. 5)를 결정한다.
네트워크의 부분집합 S에서 타깃 최적화를 해결하여 선택적 재학습을 적용한다(Eq. 3 및 Eq. 4).
필요할 때만 용량을 확장하고 불필요한 추가 단위를 가지치기 할 수 있는 그룹-스파시티 목표를 해결한다(Eq. 5).
의미 drift(rho_i^t)에 임계치를 초과하는 단위를 분할/중복한 다음 재학습한다(Eq. 6 및 Algorithm 4).
훈련 단계가 반영된 추론을 가능하게 하기 위해 신규 추가 단위를 타임스탬프한다(타임스탬프된 추론).

실험 결과

연구 질문

RQ1신경망이 네트워크의 관련 부분만 선택적으로 재학습하여 일련의 작업을 효율적으로 학습할 수 있는가?
RQ2새로운 작업이 이전 작업과 의미적으로 다를 때 동적 용량 확장이 성능을 향상시키는가?
RQ3분할/중복 단위와 타임스탬프된 추론이 의미 drift를 방지하면서 지속적 학습을 가능하게 하는가?
RQ4DEN이 정확도 및 매개변수 효율성 측면에서 EWC, Progressive Networks 등의 기준선과 어떻게 비교되는가?
RQ5모든 작업이 이용 가능할 때 학습된 구조가 최적 용량을 추정하는 데 일반화될 수 있는가(배치 설정)?

주요 결과

DEN은 데이터 세트 전반에 걸쳐 매개변수의 비율이 11.9%–60.3%에 불과하면서도 배치 모델과 동일하거나 더 나은 성능을 달성한다.
DEN은 MNIST-Variation, CIFAR-100, AWA에서 생애 학습 시나리오에서 L2-정규화 재학습, EWC, Progressive Networks와 같은 기준선보다 우수한 성능을 보인다.
선택적 재학습은 학습 시간을 줄이고 작업 관련 서브네트워크에 업데이트를 집중한다.
그룹 스파시티를 이용한 동적 확장은 필요한 뉴런만 추가하여 과도한 매개변수화를 피하고 효율성을 높인다.
서브넷/특성 drift가 단위 중복을 촉발하여 오래된 작업의 성능을 유지하면서 새로운 지식을 얻도록 돕는다.
모든 작업에서 DEN을 미세 조정(DEN-Finetune)하면 최상의 성능을 얻어 배치 모델을 능가하고 네트워크 용량 추정이 효과적으로 가능해진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.