QUICK REVIEW

[논문 리뷰] Continual Learning in Low-rank Orthogonal Subspaces

Arslan Chaudhry, Naeemullah Khan|arXiv (Cornell University)|2020. 10. 22.

Domain Adaptation and Few-Shot Learning참고 문헌 54인용 수 30

한 줄 요약

논문은 연속 학습에서 신경망의 직교 서브스페이스를 제안하고, Stiefel-매니폴드 최적화를 통해 직교 가중치 행렬을 강제하여 태스크 간 간섭을 최소화하고 메모리 기반 기준선에 대해 강력한 성능을 달성한다.

ABSTRACT

In continual learning (CL), a learner is faced with a sequence of tasks, arriving one after the other, and the goal is to remember all the tasks once the continual learning experience is finished. The prior art in CL uses episodic memory, parameter regularization or extensible network structures to reduce interference among tasks, but in the end, all the approaches learn different tasks in a joint vector space. We believe this invariably leads to interference among different tasks. We propose to learn tasks in different (low-rank) vector subspaces that are kept orthogonal to each other in order to minimize interference. Further, to keep the gradients of different tasks coming from these subspaces orthogonal to each other, we learn isometric mappings by posing network training as an optimization problem over the Stiefel manifold. To the best of our understanding, we report, for the first time, strong results over experience-replay baseline with and without memory on standard classification benchmarks in continual learning. The code is made publicly available.

연구 동기 및 목표

공유 벡터 공간이 아니라 직교 부분공간에서 작업을 학습함으로써 연속 학습에서 간섭 감소를 촉진한다.
정교화 보장과 함께 각 태스크를 서로 직교하는 고유한 저랭크 서브스페이스에 할당하는 프로젝션 체계를 도입한다.
계층 간 직교성을 보존하기 위해 Stiefel 매니폴드에서 가중치를 최적화하여 등거리 변환을 강제한다.
MNIST, CIFAR, 및 ImageNet 파생 태스크에서 강력한 경험 재현 기준선에 비해 실험적 이점을 보여준다.

제안 방법

각 태스크에 대해 R^{m×m}에서 랭크-r 프로젝션 P_t를 통해 저랭크 서브스페이스를 할당하고, P_t^T P_t = I 및 P_t^T P_k = 0 (k ≠ t)을 만족시킨다.
다른 태스크의 그래디언트가 프로젝션 층에서 직교함을 보장하고, Stiefel 매니폴드(W_l^T W_l = I)에서 가중치를 업데이트하여 등거리 변환으로 이를 보존한다.
훈련 중 가중치 행렬을 직교하게 유지하기 위해 접공간 투영과 Cayley 변환 기반 리트랙션을 이용해 Stiefel 매니폴드를 최적화한다.
과거 태스크에 대한 작은 재현 버퍼를 유지하고 현재 및 과거 태스크의 그래디언트를 계산하여 효과적인 그래디언트 g_l = g_l^t + g_l^k를 형성한다.
무작위 직교 가중치로 네트워크를 초기화하고, P_t = O_t O_t^T를 구성하기 위한 O_t의 오프라인 프로젝션 기저를 구성한다.
Cayley 변환에 의한 적응 학습으로 직교 서브스페이스를 훈련하기 위한 알고리즘적 세부사항(Alg. 1)을 제공합니다.

실험 결과

연구 질문

RQ1각 태스크를 독립적인 저랭크 서브스페이스에서 학습시키는 것이 연속 학습에서 간섭과 망각을 줄일 수 있는가?
RQ2Stiefel 매니폴드 최적화를 통한 가중치 행렬의 직교성을 강화하면 계층 간 그래디언트 직교성을 보존하고 한정된 에피소드 메모리에서 성능이 향상되는가?
RQ3직교-서브스페이스가 표준 연속 학습 벤치마크에서 강력한 메모리 기반 기준선에 비해 어떤 성능을 보이는가?
RQ4얕은 네트워크와 깊은 네트워크에서 투사-직교성 접근법이 더 유익한가?

주요 결과

Method	Permuted MNIST Accuracy	Forgetting	Rotated MNIST Accuracy	Forgetting	Split CIFAR Accuracy	Forgetting	Split miniImageNet Accuracy	Forgetting
Finetune	50.6 (±2.57)	0.44 (±0.02)	43.1 (±1.20)	0.55 (±0.01)	-	-	-	-
EWC (Kirkpatrick et al., 2016)	68.4 (±0.76)	0.25 (±0.01)	43.6 (±0.81)	0.53 (±0.01)	-	-	-	-
VCL (Nguyen et al., 2018)	51.8 (±1.54)	0.44 (±0.01)	48.2 (±0.99)	0.50 (±0.01)	-	-	-	-
VCL-Random (Nguyen et al., 2018)	52.3 (±0.66)	0.43 (±0.01)	54.4 (±1.44)	0.44 (±0.01)	-	-	-	-
AGEM (Chaudhry et al., 2019a)	78.3 (±0.42)	0.15 (±0.01)	60.5 (±1.77)	0.36 (±0.01)	-	-	-	-
MER (Riemer et al., 2019)	78.6 (±0.84)	0.15 (±0.01)	68.7 (±0.38)	0.28 (±0.01)	-	-	-	-
ER-Ring (Chaudhry et al., 2019b)	79.5 (±0.31)	0.12 (±0.01)	70.9 (±0.38)	0.24 (±0.01)	-	-	-	-
orthog-subspace (ours)	86.6 (±0.91)	0.04 (±0.01)	80.1 (±0.95)	0.14 (±0.01)	-	-	-	-
Multitask	91.3	0.0	94.3	0.0	-	-	-	-
Split CIFAR (Memory=	64.3 (±0.59)	0.07 (±0.01)	-	-	-	-	-	-
Split miniImageNet (Memory=	51.4 (±1.44)	0.10 (±0.01)	-	-	-	-	-	-

Orthog-subspace는 심층 신경망에서 강력한 경험 재현 기준선보다 정확도에서 최대 4.7% 포인트 개선, 기억력 감소를 최대 50%까지 감소시키며 CIFAR-100 및 miniImageNet에서 메모리가 사용될 때 성능이 향상된다.
얕은 네트워크(Permuted/Rotated MNIST)에서는 메모리 없이 평균 정확도에서 7.1–9.2% 포인트의 향상과 42–66%의 망각 감소를 달성한다.
체계적 차등실험 결과: 투사만으로는 약하고, 메모리를 추가하면 도움이 되며, Stiefel-매니폴드 직교성을 강제하면 가장 높은 정확도와 최저 망각을 얻는다.
Stiefel 제약 하에서 태스크 간 그래디언트 내적이 0에 가까워지는 경향이 있어 간섭이 감소한다는 그래디언트 분석이 확인된다.
작은 에피소드 메모리로도 orthog-subspace가 ER-Ring을 능가하며 메모리 크기가 커질수록 이득은 축소된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.