QUICK REVIEW

[論文レビュー] Overcoming Catastrophic Forgetting by Incremental Moment Matching

Sang-Woo Lee, Jin-Hwa Kim|arXiv (Cornell University)|Mar 24, 2017

Domain Adaptation and Few-Shot Learning被引用数 293

ひとこと要約

IMM は後方モーメントを逐次一致させて破局的忘却を緩和する。mean-IMM と mode-IMM は旧タスクと新タスクのバランスを取りつつ、重み転送、L2転送、ドロップ転送といった転送技術を用いて、複数データセットにわたる最先端の継続学習を達成する。

ABSTRACT

Catastrophic forgetting is a problem of neural networks that loses the information of the first task after training the second task. Here, we propose a method, i.e. incremental moment matching (IMM), to resolve this problem. IMM incrementally matches the moment of the posterior distribution of the neural network which is trained on the first and the second task, respectively. To make the search space of posterior parameter smooth, the IMM procedure is complemented by various transfer learning techniques including weight transfer, L2-norm of the old and the new parameter, and a variant of dropout with the old parameter. We analyze our approach on a variety of datasets including the MNIST, CIFAR-10, Caltech-UCSD-Birds, and Lifelog datasets. The experimental results show that IMM achieves state-of-the-art performance by balancing the information between an old and a new network.

研究の動機と目的

深層ニューラルネットワークにおける継続学習の動機づけと破局的忘却の改善。
逐次タスクの後方分布をガウス混合で近似するベイズ風の枠組みの導入。
タスク固有の後方を統合するための2つのモーメント一致変種（mean-IMM と mode-IMM）の提案。
転送技術を用いてIMM の探索空間を滑らかで凸に近い最適化経路へと拡張。
多様なデータセット（MNIST、CIFAR-10、Caltech-UCSD Birds、Lifelog）における経験的向上を実証。

提案手法

ネットワークパラメータの後方をガウスとしてモデル化し、タスク後方の混合を単一のガウス q(θ|μ,Σ) で近似する。
Mean-IMM: 加重KL発散の和を最小化し KL(qk||q1:K) へと導くことで μ* = ∑k αk μk および Σ* = ∑k αk(Σk + (μk−μ*)(μk−μ*)T) を得る。
Mode-IMM: 混合のモードをラプラス近似で近似し、 μ* = Σ* (∑k αk Σk−1 μk) および Σ* = (∑k αk Σk−1)−1。
転送技術（weight-transfer、L2-transfer、drop-transfer）を適用し、タスク後方間の最適化経路を滑らかで凸状に近いものにする。
対角共分散を仮定して計算量を削減し、Mode-IMM で Σk を定義する際にフィッシャー情報を使用する。

実験結果

リサーチクエスチョン

RQ1逐次タスクネットワークの後方モーメントをどのように統合して忘却を防ぐことができるか。
RQ2mean-IMM と mode-IMM は古いタスクと新しいタスク間の性能のバランスを varied dataset で効果的に取れるか。
RQ3転送技術（weight-transfer、L2-transfer、drop-transfer）は損失ランドスケープを滑らかにすることで IMM の性能を向上させるか。
RQ4ベイズ的モーメント一致の観点は深層ネットワークにおける継続学習を説明・指針づけるか。
RQ5タスクの規模やデータ分布が異なる場合、IMM の現実的な制約は何か。

主な発見

Mean-IMM および mode-IMM は複数のベンチマークにおいて継続学習の現状最先端に競合する性能を示す。
Drop-transfer および L2-transfer は IMM の性能を大幅に向上させ、古いタスクと新しいタスクのトレードオフの安定性を改善する。
Mode-IMM は転送技術に対して堅牢であり、タスク規模が異なる場合にはしばしば Mean-IMM よりも上回ることがある。
IMM は αt を動的に調整してオンラインでタスクの重要度をバランスさせ、旧情報と新情報の重み付けを可能にする。
ImageNet から CUB への転送では、IMM 系統が prior LwF ベースラインをわずかに上回る gains を示し、異種タスクペアへの適用性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。