QUICK REVIEW

[논문 리뷰] Active Long Term Memory Networks

Tommaso Furlanello, Jiaping Zhao|arXiv (Cornell University)|2016. 06. 07.

Advanced Graph Neural Networks참고 문헌 41인용 수 26

한 줄 요약

이 논문은 지속적 다중 작업 학습에서 치명적인 잊음 문제를 완화하기 위해 지식 정착과 재생 메커니즘을 조합한 딥 러닝 프레임워크인 활성 장기 기억 네트워크(A-LTM)를 제안한다. 안정적인 정착 기반 네트워크와 유연한 헤드 네트워크를 활용함으로써 A-LTM는 이전에 학습한 시점 인식 작업에서 높은 정확도(84% on iLab-20M)를 유지하면서도 ImageNet의 복잡하고 대규모의 도메인으로 적응하여 재생 기반으로 90%의 시점 정확도를 달성하고, 재생 없이선 57%를 기록함으로써 외부 감독 없이도 강력한 수명 주기 학습이 가능함을 보여준다.

ABSTRACT

Continual Learning in artificial neural networks suffers from interference and forgetting when different tasks are learned sequentially. This paper introduces the Active Long Term Memory Networks (A-LTM), a model of sequential multi-task deep learning that is able to maintain previously learned association between sensory input and behavioral output while acquiring knew knowledge. A-LTM exploits the non-convex nature of deep neural networks and actively maintains knowledge of previously learned, inactive tasks using a distillation loss. Distortions of the learned input-output map are penalized but hidden layers are free to transverse towards new local optima that are more favorable for the multi-task objective. We re-frame the McClelland's seminal Hippocampal theory with respect to Catastrophic Inference (CI) behavior exhibited by modern deep architectures trained with back-propagation and inhomogeneous sampling of latent factors across epochs. We present empirical results of non-trivial CI during continual learning in Deep Linear Networks trained on the same task, in Convolutional Neural Networks when the task shifts from predicting semantic to graphical factors and during domain adaptation from simple to complex environments. We present results of the A-LTM model's ability to maintain viewpoint recognition learned in the highly controlled iLab-20M dataset with 10 object categories and 88 camera viewpoints, while adapting to the unstructured domain of Imagenet with 1,000 object categories.

연구 동기 및 목표

순차적 딥 러닝에서 새로운 작업이 이전에 학습한 지식을 방해하는 치명적인 간섭 문제를 해결하기 위해.
원래 데이터에 지속적인 접근 없이도 이전 작업의 장기 기억을 유지할 수 있는 수명 주기 학습 프레임워크를 개발하기 위해.
데이터 분포의 변화와 비정상적인 환경이 딥 네트워크에서 치명적인 잊음을 유도하는 방식을 탐구하기 위해.
지식 정착과 입력 재생을 조합했을 때, 데이터 통계가 극명하게 다른 도메인 간에 학습을 안정화하는 데 효과적인지 평가하기 위해.
구조화되고 통제된 작업(시점 인식)에서 성능를 유지하면서도 대규모이고 비구조화된 도메인(ImageNet)에 적응할 수 있는 모델의 능력을 경험적으로 검증하기 위해.

제안 방법

A-LTM는 이전 작업에서 훈련된 안정적이고 정착된 기반 네트워크(N)를 사용하여 새로운 유연한 헤드 네트워크(H)에서 지식 정착을 위한 감독을 제공한다.
모델는 안정된 네트워크의 입력-출력 맵의 왜곡을 방지하기 위해 지식 정착을 적용함으로써 이전 작업의 성능를 유지한다.
비정상적인 입력 분포를 가진 도메인 전이 상황에서는 재생 메커니즘이 도입되며, 과거 입력을 저장하거나 안정된 네트워크를 통해 이를 생성하여 분포의 불균형을 복구한다.
유연한 헤드 네트워크(H)는 안정된 네트워크(N)에서 초기화되어 새로운 데이터에서 미세조정되며, 정착을 통해 이전 지식을 유지하면서도 적응할 수 있다.
기본 모델로 다중 작업 학습 설정을 사용하고, A-LTM는 이전 데이터의 공동 감독 없이도 다중 작업 학습을 모방한다.
프레임워크는 iLab-20M 데이터셋(10개 카테고리, 88개 시점)에서 ImageNet(1,000개 카테고리, 100만 장의 이미지)으로의 지속적 적응을 대상으로 평가되며, 새로운 작업 정확도와 원래 작업의 기억력 측정을 동시에 수행한다.

실험 결과

연구 질문

RQ1제어된 저차원 도메인(iLab-20M)에서 복잡하고 대규모의 고차원 도메인(ImageNet)으로 전이할 때, 지식 정착만으로 치명적인 잊음을 방지할 수 있는가?
RQ2데이터 분포의 극명한 변화가 발생할 경우, 재생 기능이 없는 상황에서 기억력 유지에 어떤 영향을 미치는가?
RQ3원래 레이블에 접근할 수 없을 때, 안정적이고 정착된 네트워크가 지속 학습을 위한 가짜 레이블 소스로 얼마나 효과적으로 기능할 수 있는가?
RQ4새로운 도메인의 입력 분포가 원래 도메인과 크게 다를 경우, A-LTM의 성능가 크게 저하되는가?
RQ5공동 훈련 없이도 A-LTM가 두 데이터셋 모두에서 다중 작업 학습 성능에 비슷한 성능을 달성할 수 있는가?

주요 결과

재생 기반 A-LTM는 ImageNet으로의 적응 후 iLab-20M의 원래 시점 인식 작업에서 90%의 정확도를 기록했으며, 재생 없이선 57%에 그쳐 상당한 성능 향상을 보였다.
재생 없이선 A-LTM가 시점 작업에서 성능이 급격히 감소(84%에서 57%로)하여, 분포 변화가 재생 없이 기억 유지에 심각한 영향을 미친다는 점을 시사한다.
iLab-20M 다중 작업 네트워크에서 초기화된 A-LTM는 원래 작업에서 84%의 정확도를 유지하여 사전 훈련된 가중치가 지속 학습에 유리한 영향을 미친다는 점을 입증한다.
재생 없이 A-LTM는 ImageNet에서 상위-1 정확도가 40%에 그쳐, 정착만으로는 고분포 이동 도메인에서의 효과적 적응이 부족함을 시사한다.
A-LTM 프레임워크는 원래 레이블에 접근할 수 없음에도 불구하고 ImageNet에서 다중 작업 학습 성능(41% 정확도)을 성공적으로 모방하면서도 원래 작업의 장기 기억을 유지했다.
경험적 결과는 데이터 분포가 비정상적이고 샘플링이 비균일할 경우, 특히 고차원이고 복잡한 환경에서 딥 네트워크에서 치명적인 간섭이 발생함을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.