QUICK REVIEW

[논문 리뷰] Progressive Neural Networks

Andrei A. Rusu, Neil C. Rabinowitz|arXiv (Cornell University)|2016. 06. 15.

Model Reduction and Neural Networks인용 수 1,136

한 줄 요약

진행형 신경망은 각 작업마다 새로운 열을 추가하고, 이전에 학습한 특징과의 측면 연결을 통해 깊은 강화학습에서 망가지는 Forgetting 없이 이전 작업을 전달할 수 있도록 하며, Atari, Pong 변형, 3D 미로 작업에서 전이(transfers) 가능성을 보여준다.

ABSTRACT

Learning to solve complex sequences of tasks--while both leveraging transfer and avoiding catastrophic forgetting--remains a key obstacle to achieving human-level intelligence. The progressive networks approach represents a step forward in this direction: they are immune to forgetting and can leverage prior knowledge via lateral connections to previously learned features. We evaluate this architecture extensively on a wide variety of reinforcement learning tasks (Atari and 3D maze games), and show that it outperforms common baselines based on pretraining and finetuning. Using a novel sensitivity measure, we demonstrate that transfer occurs at both low-level sensory and high-level control layers of the learned policy.

연구 동기 및 목표

연속 학습에서의 대규모 망각 문제를 새로운 작업 특화 열 구조를 통해 방지한다.
학습된 측면 연결을 통해 순차 RL 작업 간의 전달(전이)을 가능하게 한다.
다양한 RL 도메인(Pong 변형, Atari, Labyrinth)에서 미세조정 baselines 대비 전이 성능을 경험적으로 평가한다.
전이가 발생하는 위치와 방식(Fisher 정보 기반)을 이해하기 위한 해석적 지표를 개발한다.

제안 방법

각 작업마다 새로운 네트워크 열을 구성하고 이전 열은 잊히지 않도록 고정한다.
측면 어댑터를 사용해 이전 작업의 특징을 새 열의 계층으로 연결한다.
여러 RL 도메인에서 asynchronous A3C로 학습해 전이를 평가한다.
베이스라인과 비교: 단일 작업 미세조정(상위 계층 및 전체 모델) 및 두 열 진행형 네트워크.
전이 분석을 위해 Average Fisher Sensitivity (AFS) 및 섭동 기반 분석을 사용한다.
확장성 문제를 다루고 추가 용량의 가지치기(pruning)/압축 가능성을 논의한다.

실험 결과

연구 질문

RQ1진행형 네트워크가 이전 작업을 잃지 않으면서 이질적인 RL 작업 간에 긍정적 전이를 달성할 수 있는가?
RQ2순차 RL 작업에서 저수준(시각)과 고수준(정책) 계층 간의 전이가 어떻게 나타나는가?
RQ3작업 열이 더 추가되면 실제 용량 사용이 감소하는가, 즉 가지치기나 압축이 가능한가?
RQ4Pong 변형, Atari, Labyrinth와 같은 RL 도메인에서 진행형 전이는 표준 미세조정 baselines와 어떻게 비교되는가?
RQ5네트워크에서 전이가 어디에서 발생하는지를 보여주는 지표(예: Fisher 기반 민감도)는 무엇인가?

주요 결과

진행형 네트워크는 RL 작업 간 전이 학습에서 강력한 미세조정 baselines를 자주 능가한다.
전이는 저수준의 감각 계층과 고수준의 제어 계층 모두에서 발생할 수 있으며, 특징 재사용 및 AFS 점수 분석을 통해 확인된다.
여러 도메인에서 열이 추가될수록 긍정적 전이가 증가하는 경향이 있지만, 이전 특징이 새 특징 학습 없이 우세한 경우 일부 부정적 전이가 발생한다.
더 많은 열이 추가될수록 추가 용량의 비율이 감소하는 경향이 있어 가지치기나 압축으로 성장 문제를 완화할 수 있다.
진공하지 않는(task 간) 또는 적대적(adversarial) 작업 쌍 간에도 전이가 가능하다는 것을 시연하며, 예를 들어 Seaquest에서 Gopher로의 전이가 강력한 지식 재활용을 보여준다.
강제 적응(이전 열 고정)은 Forgetting을 방지하고 Destructive interference 없이 다중 작업에서의 공동 성능을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.