QUICK REVIEW

[論文レビュー] Meta-Consolidation for Continual Learning

K J Joseph, Vineeth N Balasubramanian|arXiv (Cornell University)|Oct 1, 2020

Domain Adaptation and Few-Shot Learning参考文献 87被引用数 27

ひとこと要約

MERLINは、潜在空間における潜在パラメータのタスク条件付きメタ分布からの重みのサンプリングをモデル化することで、オンライン継続的学習のための新しいメタ統合フレームワークを提案する。変分オートエンコーダ（VAE）を用い、タスク固有の事前分布を導入することで学習される。MNIST、CIFAR-10、CIFAR-100、Mini-ImageNetの5つのベンチマークで最先端の性能を達成し、GSS、GEM、iCaRL、EWCなどのベースラインと比較して一貫した性能向上を示す。同時に、災難的忘却を防ぎつつ、モデルアンサンブルとスケーラビリティを実現する。

ABSTRACT

The ability to continuously learn and adapt itself to new tasks, without losing grasp of already acquired knowledge is a hallmark of biological learning systems, which current deep learning systems fall short of. In this work, we present a novel methodology for continual learning called MERLIN: Meta-Consolidation for Continual Learning. We assume that weights of a neural network $\boldsymbol ψ$, for solving task $\boldsymbol t$, come from a meta-distribution $p(\boldsymbol{ψ|t})$. This meta-distribution is learned and consolidated incrementally. We operate in the challenging online continual learning setting, where a data point is seen by the model only once. Our experiments with continual learning benchmarks of MNIST, CIFAR-10, CIFAR-100 and Mini-ImageNet datasets show consistent improvement over five baselines, including a recent state-of-the-art, corroborating the promise of MERLIN.

研究の動機と目的

ニューラルネットワークの重みをタスク条件付きメタ分布からのサンプリングとしてモデル化することで、継続的学習における災難的忘却を解消すること。
各データポイントが一度だけ観測されるオンライン継続的学習設定を実現し、データの複数回走査を回避すること。
リプレイや拡張ベースのアプローチとは異なり、タスク数に応じてモデルサイズが増大しないスケーラブルな手法を開発すること。
クラスインクリメンタル学習とドメインインクリメンタル学習の両方をサポートし、タスクに依存する推論と依存しない推論の両方の設定を可能にすること。
各タスクに対して学習されたメタ分布から複数の重みをサンプリングすることで、推論時にモデルアンサンブルを可能にすること。

提案手法

MERLINは、タスク t におけるニューラルネットワークの重みを、潜在空間に表現されたメタパラメータをもつタスク条件付きメタ分布 p(ψ|t) からのサンプリングとしてモデル化する。このメタ分布は、タスク固有の事前分布を用いた変分オートエンコーダ（VAE）によって学習される。
新しいタスクが到着する度に、潜在コード z に対するタスク固有の学習済み事前分布 pθ(z|t) を段階的に更新することで、メタ統合を実現する。
VAEのエンコーダは、タスク固有の分類器の重みベクトルを潜在コード z に圧縮し、デコーダは重みを再構築することで、パラメータ生成と継続的学習を可能にする。
推論時、複数のモデル ψt ∼ p(ψ|t) をメタ分布からサンプリングし、アンサンブルすることで、より高いロバスト性と精度を実現する。
本手法は、データが一度だけ観測されるオンライン継続的学習設定で動作し、知識保持のためのエキジンプラー・バッファ（100〜400サンプル）を用いる。
アーキテクチャはスケーラブルである：推論時にはタスク固有の事前分布とVAEデコーダのみが必要であり、両者ともタスク数に応じて増大しない。

実験結果

リサーチクエスチョン

RQ1潜在空間におけるモデルパラメータのメタ空間での学習（潜在分布からのサンプリング）は、重み空間やデータ空間の統合と比較して、継続的学習の性能を向上させるか？
RQ2オンラインかつ一回走査の設定において、潜在空間におけるメタ統合は、既存のリプレイベースや正則化ベースの継続的学習手法と比較してどのように性能を発揮するか？
RQ3提案手法は、アーキテクチャや分布の再トレーニングなしに、クラスインクリメンタル学習とドメインインクリメンタル学習の両方をサポートできるか？
RQ4学習済みメタ分布からのモデルアンサンブルは、継続的学習における性能とロバスト性をどの程度向上させるか？
RQ5タスク数の増加に伴うスケーラビリティはどの程度で、効率性と低メモリフットプリントを維持できるか？

主な発見

MERLINは、Split MNIST、Permuted MNIST、Split CIFAR-10、Split CIFAR-100、Mini-ImageNetの5つのベンチマークで、GSS（最近の最先端手法）をすべて上回る性能を発揮した。
Split MNISTでは、チャンクサイズ100で90.8%の精度を達成し、メモリサイズ100の条件下でGEM（77.4%）とiCaRL（72.5%）を上回った。
エキジンプラー・バッファを2000サンプルに増強した場合、CIFAR-10で88.4%の精度を達成し、同じバッファサイズでGEM（80.5%）とiCaRL（74.8%）を著しく上回った。
本手法は優れたスケーラビリティを示した：GSS、GEM、EWC、iCaRLと比較して、メタモデルサイズが8倍も小さかった。これらの手法は、完全なモデル重みや大規模なエキジンプラーを保存する必要がある。
アブレーションスタディの結果、VAEエンコーディングにおける重みチャンクサイズの増加は精度を低下させる傾向にあり、これはより大きな重みブロックをモデル化するには、より複雑なVAEアーキテクチャを必要とする可能性を示唆している。
エキジンプラー・バッファのサイズを大きくするほど性能が著しく向上し、MERLINはGEM や iCaRL よりもメモリの利用効率が高いため、より良い性能向上を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。