QUICK REVIEW

[論文レビュー] Less-forgetting Learning in Deep Neural Networks

Heechul Jung, Jeongwoo Ju|arXiv (Cornell University)|Jul 1, 2016

Domain Adaptation and Few-Shot Learning参考文献 14被引用数 161

ひとこと要約

ソースドメイン情報を保持しつつ、ターゲットドメイン学習を実行する際にソースデータにアクセスしないで忘却を抑制する学習法を導入し、汎化性能を向上させ、ミニバッチ忘却に対処する。

ABSTRACT

A catastrophic forgetting problem makes deep neural networks forget the previously learned information, when learning data collected in new environments, such as by different sensors or in different light conditions. This paper presents a new method for alleviating the catastrophic forgetting problem. Unlike previous research, our method does not use any information from the source domain. Surprisingly, our method is very effective to forget less of the information in the source domain, and we show the effectiveness of our method using several experiments. Furthermore, we observed that the forgetting problem occurs between mini-batches when performing general training processes using stochastic gradient descent methods, and this problem is one of the factors that degrades generalization performance of the network. We also try to solve this problem using the proposed method. Finally, we show our less-forgetting learning method is also helpful to improve the performance of deep neural networks in terms of recognition rates.

研究の動機と目的

ソースデータを使用せずに新しいドメインへ適応する際の壊滅的忘却を対処する。
ターゲットドメインの学習で元のソース特徴空間を保持し、前の知識が上書きされないようにする。
SGDベースの学習中にミニバッチ間で生じる忘却を識別し緩和する。
提案手法で認識性能と汎化が向上することを示す。

提案手法

ソースネットワークの重みを初期のターゲットネットワークの重みに再利用する。
決定境界を保持するためにソフトマックス（分類器）層を凍結する。
ターゲットデータ上で joint loss L_t = λ_c L_c + λ_e L_e を用いて学習する。ここで L_c はクロスエントロピー、L_e はソースとターゲット層の特徴のユークリッド距離。
L_e を 1/2 || f_{L-1}(x; θ^(s)) - f_{L-1}(x; θ^(t)) ||_2^2 と定義して、中間特徴を揃える。
凍結された分類層の制約の下、ターゲットデータのミニバッチからバックプロパゲーションを介して θ^(t) を反復的に更新する。

実験結果

リサーチクエスチョン

RQ1ソースデータをアクセスせずに、ターゲットドメイン学習中にソースドメイン情報を保持できる学習スキームは可能か。
RQ2中間特徴を揃えることは、ターゲットドメインの微調整下でソース特徴空間を維持するのに役立つか。
RQ3SGD のミニバッチ間にも忘却が存在し得るか、そしてそれを緩和できるか。
RQ4より忘れにくい学習は、標準的な転送学習や他の forgeting-aware 手法と比較して汎化と認識率を改善するか。

主な発見

提案手法は、再訓練後もソース特徴空間がターゲットドメインデータと良くクラスタリングされている。
標準の SGD ではミニバッチ間の忘却が観察されるが、より忘れにくい目的関数によって緩和される。
適切な λ_e を用いると LF は従来の転送、LWTA、Maxout において、いくつかのドメインシフトシナリオで上回る。
忘れにくいアプローチを適用すると、特にバッチ正規化と組み合わせた場合に汎化が向上する。
この手法は転送学習だけでなく、最初から学習する場合にも効果をもたらす。
アルゴリズムの比較は、学習の挙動を滑らかにし、忘却を減らすことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。