QUICK REVIEW

[논문 리뷰] Achieving Forgetting Prevention and Knowledge Transfer in Continual Learning

Zixuan Ke, Bing Liu|arXiv (Cornell University)|2021. 12. 05.

Domain Adaptation and Few-Shot Learning인용 수 44

한 줄 요약

본 논문은 CTR, 캡슐과 전이 라우팅을 이용한 BERT용 연속 학습 플러그인 아키텍처를 도입하여 Task-CL 설정에서 재앙적 망각을 방지하고 NLP 태스크 간 지식 전달을 가능하게 한다. CTR은 BERT에 삽입된 단일 쌍의 CL-플러그인을 사용하면서 여러 데이터셋에서 강력한 베이스라인들을 능가한다.

ABSTRACT

Continual learning (CL) learns a sequence of tasks incrementally with the goal of achieving two main objectives: overcoming catastrophic forgetting (CF) and encouraging knowledge transfer (KT) across tasks. However, most existing techniques focus only on overcoming CF and have no mechanism to encourage KT, and thus do not do well in KT. Although several papers have tried to deal with both CF and KT, our experiments show that they suffer from serious CF when the tasks do not have much shared knowledge. Another observation is that most current CL methods do not use pre-trained models, but it has been shown that such models can significantly improve the end task performance. For example, in natural language processing, fine-tuning a BERT-like pre-trained language model is one of the most effective approaches. However, for CL, this approach suffers from serious CF. An interesting question is how to make the best use of pre-trained models for CL. This paper proposes a novel model called CTR to solve these problems. Our experimental results demonstrate the effectiveness of CTR

연구 동기 및 목표

NLP 태스크의 Task-CL 설정에서 재앙적 망각(CF)을 동기부여하고 해결한다.
일련의 태스크를 학습하는 동안 관련 태스크 간의 순방향 및 역방향 지식 전달을 가능하게 한다.
각 태스크마다 파인튜닝하지 않고도 사전학습된 모델(BERT)을 지속적 학습에서 효과적으로 활용한다.
BERT에 삽입된 CL-플러그인 한 쌍으로 작동하는 플러그인 CL 아키텍처(CTR)를 개발한다.
다양한 NLP 태스크와 데이터셋에서 강력한 베이스라인 대비 최첨단 성능을 시연한다.

제안 방법

전이 학습의 이점을 얻으면서 기본 모델을 파인튜닝하지 않도록 BERT의 트랜스포머 계층에 두 개의 CL-플러그인을 삽입한다.
각 CL-플러그인은 스킵 연결이 있는 지식 공유 모듈(KSM)과 태스크 특화 모듈(TSM)을 포함한다.
KSM은 태스크 캡슐 계층, 전이 캡슐 계층, 그리고 공유 가능한 지식을 식별하고 전이하는 전이 라우팅 메커니즘을 사용한다.
TSM은 미분 가능 마스크를 사용해 태스크별 지식을 보호하고 태스크 간 망각을 방지한다.
CL-플러그인은 Capsule Network(CapsNet) 스타일의 아키텍처와 이전 태스크의 전달 가능한 특징을 선택하기 위한 transfer routing 프로세스를 사용한다.

실험 결과

연구 질문

RQ1사전 학습된 모델의 최소 파인튜닝으로 NLP 태스크의 시퀀스(Task-CL)를 학습할 때 CTR이 재앙적 망각을 방지할 수 있는가?
RQ2공유 지식의 정도가 다양한 태스크 간 지식 전달을 기존 CL 방법들과 비교해 CTR이 개선하는가?
RQ3BERT의 서로 다른 위치에 CL-플러그인을 삽입하는 것이 지속적 학습 성능에 어떤 영향을 미치는가?
RQ4문서 감성 분류, 분야 감성 분류, 일반 텍스트 분류를 포함하는 데이터셋에서 CTR이 강력한 베이스라인에 비해 어느 정도 성능을 보이는가?
RQ5다양한 NLP 태스크에 걸쳐 망각 방지와 지식 전달을 모두 달성하기에 한 쌍의 CL-플러그인이 sufficient한가?

주요 결과

모델	ASC 정확도	ASC Macro-F1	DSC 정확도(소형)	DSC Macro-F1(소형)	DSC 정확도(전체)	DSC Macro-F1(전체)	20News 정확도	20News Macro-F1
CTR (forward)	87.89	80.25	83.75	82.55	89.86	89.16	95.63	95.62
CTR	89.47	83.62	84.34	83.29	89.31	88.75	95.25	95.23

CTR은 ASC, DSC(소형 및 전체 데이터), 그리고 20News 태스크에서 시퀀스에 걸쳐 정확도와 Macro-F1 모두에서 모든 베이스라인을 능가한다.
미세조정된 BERT 및 Adapter-BERT 베이스라인과 비교할 때 CTR은 더 우수한 망각 회피와 지식 전달을 달성한다.
CL-플러그인과 함께하는 transfer routing은 이전의 지식 전달 방법에서의 다이나믹 라우팅에 비해 상당한 이점을 제공하며 하이퍼파라미터 튜닝의 필요성을 줄인다.
CTR의 성능은 다중태스크 학습(MTL)의 상한에 근접하여 CF를 완화하면서 효과적인 지식 공유를 시사한다.
CTR은 태스크 마스크를 통한 강력한 기억 보호를 보여주며 유사 태스크 간의 역방향 전이와 새로운 태스크로의 견고한 순방향 전이를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.