[논문 리뷰] Scalable and Order-robust Continual Learning with Additive Parameter Decomposition
지속적 학습을 위한 Additive Parameter Decomposition (APD)를 제시하고, 매개변수를 공유된 부분과 희소한 작업 적응 부분으로 분리하며, 소급 업데이트와 계층적 통합으로 확장성 및 순서 강건성을 달성한다.
While recent continual learning methods largely alleviate the catastrophic problem on toy-sized datasets, some issues remain to be tackled to apply them to real-world problem domains. First, a continual learning model should effectively handle catastrophic forgetting and be efficient to train even with a large number of tasks. Secondly, it needs to tackle the problem of order-sensitivity, where the performance of the tasks largely varies based on the order of the task arrival sequence, as it may cause serious problems where fairness plays a critical role (e.g. medical diagnosis). To tackle these practical challenges, we propose a novel continual learning method that is scalable as well as order-robust, which instead of learning a completely shared set of weights, represents the parameters for each task as a sum of task-shared and sparse task-adaptive parameters. With our Additive Parameter Decomposition (APD), the task-adaptive parameters for earlier tasks remain mostly unaffected, where we update them only to reflect the changes made to the task-shared parameters. This decomposition of parameters effectively prevents catastrophic forgetting and order-sensitivity, while being computation- and memory-efficient. Further, we can achieve even better scalability with APD using hierarchical knowledge consolidation, which clusters the task-adaptive parameters to obtain hierarchically shared parameters. We validate our network with APD, APD-Net, on multiple benchmark datasets against state-of-the-art continual learning methods, which it largely outperforms in accuracy, scalability, and order-robustness.
연구 동기 및 목표
- 다수의 작업으로 확장하더라도 재앙적 망각을 해결한다.
- 작업 시퀀스의 순서 민감도를 완화해 공정하고 안정적인 성능을 보장한다.
- 메모리 및 계산 효율이 높은 지속적 학습 프레임워크를 제공한다.
- 강건성 및 확장성을 향상시키기 위해 소급 업데이트와 계층적 지식 통합을 도입한다.
제안 방법
- 네트워크 매개변수를 작업-공유 시그마와 희소한 작업-적응 tau로 분해하고, 마스킹 M_t를 통해 작업별 사용 지침을 제공한다.
- 정규화와 함께 sigma, tau_t, 마스크 매개변수를 함께 최적화한다: L(...) + lambda1||tau_t||_1 + lambda2||sigma - sigma^(t-1)||^2를 최소화한다.
- 소급 업데이트를 적용한다: 작업 t에서 업데이트된 sigma와 M_i로 이전 theta_i를 재구성한 후 과거 해에 가깝게 유지되도록 tau_i를 업데이트합니다(식 2).
- 작업-적응 매개변수를 클러스터링하고 공유 구성요소와 로컬 구성요소를 분할하여 용량 증가를 줄이는 계층적 지식 통합을 적용한다(식 3).
- 다른 작업에 영향을 주지 않고 완료된 작업의 tau_t를 제거하는 선택적 작업 망각을 사용한다.
실험 결과
연구 질문
- RQ1지속적 학습을 어떻게 대량의 작업으로 확장하되 용량 증가를 크게 하지 않고 가능하게 할 수 있을까?
- RQ2작업 시퀀스의 순서 민감도를 줄여 최종 성능에 미치는 시퀀스 순서의 영향을 최소화할 수 있을까?
- RQ3매개변수를 공유 및 희소한 작업-적응 구성요소로 분해하면 재앙적 망각을 효과적으로 방지할 수 있을까?
- RQ4관련 작업 간 지식을 공유함으로써 계층적 통합이 효율성을 더 개선할 수 있을까?
- RQ5비대상 작업에 해를 끼치지 않으면서 선택적 망각이 가능할까?
주요 결과
- APD-Net은 확장 기반 방법보다 상당히 낮은 용량을 사용하면서도 최첨단 baselines보다 더 높은 정확도를 달성한다.
- 과거 작업-적응 매개변수의 소급 업데이트는 의미적 드리프트를 줄이고 순서 강건성을 향상시킨다.
- 계층적 지식 통합은 용량 증가를 더욱 감소시키고 관련 작업 간 전달을 향상시킨다.
- APD-Net은 (예: Omniglot-회전) 100개의 작업과 같은 대규모 작업 수에 대해 로그 스케일의 매개변수 증가로 강한 확장성을 보여준다.
- 선택적 망각은 남은 작업의 성능 저하 없이 한 작업의 매개변수를 제거할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.