[논문 리뷰] Experience Replay for Continual Learning
CLEAR는 새로운 데이터에서의 온-정책 학습과 오프-정책 재생을 통한 행동 복제로 연속 강화 학습에서의 재난적 망각을 상당히 감소시킨다.
Continual learning is the problem of learning new tasks or knowledge while protecting old knowledge and ideally generalizing from old experience to learn new tasks faster. Neural networks trained by stochastic gradient descent often degrade on old tasks when trained successively on new tasks with different data distributions. This phenomenon, referred to as catastrophic forgetting, is considered a major hurdle to learning with non-stationary data or sequences of new tasks, and prevents networks from continually accumulating knowledge and skills. We examine this issue in the context of reinforcement learning, in a setting where an agent is exposed to tasks in a sequence. Unlike most other work, we do not provide an explicit indication to the model of task boundaries, which is the most general circumstance for a learning agent exposed to continuous experience. While various methods to counteract catastrophic forgetting have recently been proposed, we explore a straightforward, general, and seemingly overlooked solution - that of using experience replay buffers for all past events - with a mixture of on- and off-policy learning, leveraging behavioral cloning. We show that this strategy can still learn new tasks quickly yet can substantially reduce catastrophic forgetting in both Atari and DMLab domains, even matching the performance of methods that require task identities. When buffer storage is constrained, we confirm that a simple mechanism for randomly discarding data allows a limited size buffer to perform almost as well as an unbounded one.
연구 동기 및 목표
- 연속 RL에서의 안정성과 가소성(trade-off)을 동기부여하고 해결한다.
- 일련의 작업들에 걸쳐 재난적 망각을 줄이는 재생 기반 프레임워크를 개발한다.
- 명시적 작업 경계나 작업 신원 가정 없이 학습이 가능하도록 한다.
제안 방법
- 새로운 경험과 재생 경험의 혼합을 포함한 actor-critic 학습과 V-Trace 오프-정책 보정 사용.
- 현재 정책과 과거 자신 간의 행동 복제를 적용하여 재생 학습의 안정성을 높인다.
- 가소성을 위한 온-정책 업데이트와 안정성을 위한 오프-정책 업데이트를 결합하고, 재생 데이터에 대한 복제 손실을 포함한다.
- 메모리 제한 시 재생 버퍼를 관리하기 위해 저장소 샘플링이 가능한 IMPALA와 유사한 분산 아키텍처를 적용한다.
실험 결과
연구 질문
- RQ1작업이 순차적으로 제시되는 연속 RL에서 경험 재생이 재난적 망각을 줄일 수 있는가?
- RQ2온-정책 학습과 오프-정책 재생(및 행동 복제)을 혼합하는 것이 안정성을 개선하고 가소성을 해치지 않는가?
- RQ3CLEAR의 성능은 태스크 인지 방법(EWC, Progress & Compress)이나 분리된 작업 또는 동시 작업 학습에 비해 어떤가?
- RQ4버퍼 크기와 온/오프 정책 균형이 학습 역학과 망각에 미치는 영향은 무엇인가?
주요 결과
- CLEAR는 순환 및 순차적 작업 설정에서 재난적 망각을 현저히 감소시킨다.
- CLEAR는 작업을 분리하여 혹은 동시에 학습하는 것과 유사한 누적 성능을 달성하여 망각을 효과적으로 제거한다.
- 행동 복제가 안정성을 강화하고, 오프-정책 재생은 새로운 작업을 학습하는 동안에도 과거 작업 학습을 지원한다.
- 새로운 데이터와 재생 데이터의 50-50 혼합은 안정성과 가소성 사이의 좋은 균형을 제공한다; 100% 재생은 새로운 작업의 초기 학습에 해를 끼친다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.