QUICK REVIEW

[논문 리뷰] Less-forgetting Learning in Deep Neural Networks

Heechul Jung, Jeongwoo Ju|arXiv (Cornell University)|2016. 07. 01.

Domain Adaptation and Few-Shot Learning참고 문헌 14인용 수 161

한 줄 요약

소스 도메인 정보를 유지하고 대상 도메인 학습 중 소스 데이터를 접근하지 않으면서 일반화 향상과 미니 배치 잊힘 문제를 해결하는 덜 망각 학습 방법을 도입한다.

ABSTRACT

A catastrophic forgetting problem makes deep neural networks forget the previously learned information, when learning data collected in new environments, such as by different sensors or in different light conditions. This paper presents a new method for alleviating the catastrophic forgetting problem. Unlike previous research, our method does not use any information from the source domain. Surprisingly, our method is very effective to forget less of the information in the source domain, and we show the effectiveness of our method using several experiments. Furthermore, we observed that the forgetting problem occurs between mini-batches when performing general training processes using stochastic gradient descent methods, and this problem is one of the factors that degrades generalization performance of the network. We also try to solve this problem using the proposed method. Finally, we show our less-forgetting learning method is also helpful to improve the performance of deep neural networks in terms of recognition rates.

연구 동기 및 목표

소스 도메인 데이터를 사용하지 않고 DNN을 새로운 도메인에 적응시킬 때의 재앙적 잊힘 문제를 해결한다.
대상 도메인 학습이_prior 지식을 대체하지 않도록 원래 소스 특징 공간을 보존한다.
SGD 기반 학습 중 미니 배치 간의 잊힘을 식별하고 완화한다.
제안된 방법으로 인식 성능과 일반화가 향상됨을 보여준다.

제안 방법

대상 네트워크의 초기 가중치로 소스-네트워크의 가중치를 재사용한다.
결정 경계 보존을 위해 소프트맥스(분류기) 층을 고정한다.
대상 데이터에서 공동 손실 L_t = λ_c L_c + λ_e L_e 로 학습하는데, L_c는 교차 엔트로피이고 L_e는 소스와 대상 계층 특징 간의 유클리드 거리이다.
L_e를 f_{L-1}(x; θ^(s))와 f_{L-1}(x; θ^(t))의 차이의 1/2 || f_{L-1}(x; θ^(s)) - f_{L-1}(x; θ^(t)) ||_2^2 로 정의하여 중간 특징을 정렬한다.
고정된 분류기 층의 제약 하에 대상 데이터의 미니배치에서 역전파를 통해 θ^(t)을 반복적으로 업데이트한다.

실험 결과

연구 질문

RQ1소스 데이터를 접근하지 않고도 대상 도메인 학습 중에 소스 도메인 정보를 보존할 수 있는 학습 체계가 있는가?
RQ2중간 특징을 정렬하면 대상 도메인 미세튜닝에서 소스 특징 공간을 유지하는 데 도움이 되는가?
RQ3SGD 도중에도 미니 배치 간 잊힘이 존재하며 이를 완화할 수 있는가?
RQ4덜 망각 학습은 일반화 및 인식률을 표준 전이 및 다른 잊힘 인식 방법과 비교해 개선되는가?

주요 결과

제안된 방법은 재학습 후에도 소스 특징 공간이 대상 도메인 데이터와 함께 잘 군집되는 것을 유지한다.
표준 SGD에서 미니 배치 간 잊힘이 관찰되지만 덜 망각 목적에 의해 완화된다.
적절한 λ_e를 사용하면 LF가 여러 도메인 간 시나리오에서 전통적 전이, LWTA, Maxout보다 우수하다.
덜 망각 접근을 적용하면 일반화가 향상되며 배치 정규화와 함께 사용할 때 특히 그렇다.
이 방법은 전이 학습뿐만 아니라 처음부터 학습할 때도 이득을 준다.
알고리즘 비교는 더 부드러운 학습 행동과 잊힘 감소를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.