Skip to main content
QUICK REVIEW

[論文レビュー] Lifelong Learning with Dynamically Expandable Networks

Jaehong Yoon, Eunho Yang|arXiv (Cornell University)|Aug 4, 2017
Domain Adaptation and Few-Shot Learning参考文献 14被引用数 181
ひとこと要約

DENは、タスクの系列を学習するために動的に拡張し選択的に再訓練するディープネットワークであり、バッチ学習モデルと同等またはそれ以上の性能を、はるか少ないパラメータで達成し、意味的ドリフトなしに達成する。

ABSTRACT

We propose a novel deep network architecture for lifelong learning which we refer to as Dynamically Expandable Network (DEN), that can dynamically decide its network capacity as it trains on a sequence of tasks, to learn a compact overlapping knowledge sharing structure among tasks. DEN is efficiently trained in an online manner by performing selective retraining, dynamically expands network capacity upon arrival of each task with only the necessary number of units, and effectively prevents semantic drift by splitting/duplicating units and timestamping them. We validate DEN on multiple public datasets under lifelong learning scenarios, on which it not only significantly outperforms existing lifelong learning methods for deep networks, but also achieves the same level of performance as the batch counterparts with substantially fewer number of parameters. Further, the obtained network fine-tuned on all tasks obtained significantly better performance over the batch models, which shows that it can be used to estimate the optimal network structure even when all tasks are available in the first place.

研究の動機と目的

  • タスクが逐次到着する深層ネットワークの生涯学習を促進し、課題に取り組む。
  • 必要に応じてのみ容量を拡張し、既存のコンポーネントを選択的に再訓練するモデルを開発する。
  • タイムスタンプ付きのユニットと適応的な分割を用いて意味的ドリフト(破局的忘却)を防ぐ。
  • バッチまたは静的な生涯学習のベースラインと比較して、より少ないパラメータで競争力のあるタスク性能を達成する。
  • 後で全タスクが利用可能になった場合でも、モデルが最適なネットワーク構造を推定できることを実証する。

提案手法

  • 選択的再訓練、動的拡張、ユニットの分割/複製を統合した Dynamically Expandable Networks (DEN) を導入する。
  • 関連サブネットワークを特定し、各層に追加するニューロン数を決定するために、スパースおよびグループスパース正則化を用いる(Eq. 5)。
  • ネットワークのサブセット S 内で、ターゲット最適化を解くことによって選択的再訓練を適用する(Eq. 3 および Eq. 4)。
  • 必要に応じて容量を拡張するために、追加された不必要なニューユニットを剪定できるグループスパーシティ目的関数を解く(Eq. 5)。
  • 意味的ドリフト(drift rho_i^t で測定)が閾値を超えたユニットを分割/複製し、再訓練を行う(Eq. 6 および Algorithm 4)。
  • 新たに追加されたユニットにタイムスタンプを付与して、訓練段階を考慮した推論(タイムスタンプ付き推論)を可能にする。

実験結果

リサーチクエスチョン

  • RQ1ニューラルネットワークは、関連する部分だけを選択的に再訓練することで、タスクの系列を効率的に学習できるか。
  • RQ2新しいタスクが以前とは意味的に異なる場合、動的な容量拡張は性能を改善するか。
  • RQ3ユニットの分割/複製とタイムスタンプ推論は、継続的学習を可能にしつつ意味的ドリフトを防ぐか。
  • RQ4精度とパラメータ効率の観点で、DENはベースライン(例:Elastic Weight Consolidation、Progressive Networks)とどのように比較されるか。
  • RQ5すべてのタスクが利用可能な場合(バッチ設定)に学習した構造が最適な容量を推定できるか。

主な発見

  • DENはデータセット全体で、バッチモデルと同等またはそれ以上の性能を達成し、パラメータはデータセット全体で11.9%–60.3%程度を使用する。
  • DENは生涯学習シナリオで、MNIST-Variation、CIFAR-100、AWAにおいてL2正則化再訓練、EWC、Progressive Networksなどのベースラインを上回る。
  • 選択的再訓練は訓練時間を短縮し、タスク関連のサブネットワークへの更新に集中する。
  • グループスパース性を用いた動的拡張は、必要なニューロンのみを追加し、過剰パラメータ化を回避し効率を高める。
  • サブネット/特徴のドリフトがユニットの複製を引き起こし、古いタスクの性能を維持しつつ新しい知識を獲得するのを助ける。
  • 全タスクでDENをファインチューニングする(DEN-Finetune)は最良の性能をもたらし、バッチモデルを上回り、効果的なネットワーク容量推定を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。