Skip to main content
QUICK REVIEW

[論文レビュー] Scalable and Order-robust Continual Learning with Additive Parameter Decomposition

Jaehong Yoon, Saehoon Kim|arXiv (Cornell University)|Feb 25, 2019
Domain Adaptation and Few-Shot Learning被引用数 33
ひとこと要約

Additive Parameter Decomposition (APD) を導入し、継続学習においてパラメータを共有部とスパースなタスク適応部に分離し、retroactive updates と階層的統合を用いてスケーラビリティと順序堅牢性を実現する。

ABSTRACT

While recent continual learning methods largely alleviate the catastrophic problem on toy-sized datasets, some issues remain to be tackled to apply them to real-world problem domains. First, a continual learning model should effectively handle catastrophic forgetting and be efficient to train even with a large number of tasks. Secondly, it needs to tackle the problem of order-sensitivity, where the performance of the tasks largely varies based on the order of the task arrival sequence, as it may cause serious problems where fairness plays a critical role (e.g. medical diagnosis). To tackle these practical challenges, we propose a novel continual learning method that is scalable as well as order-robust, which instead of learning a completely shared set of weights, represents the parameters for each task as a sum of task-shared and sparse task-adaptive parameters. With our Additive Parameter Decomposition (APD), the task-adaptive parameters for earlier tasks remain mostly unaffected, where we update them only to reflect the changes made to the task-shared parameters. This decomposition of parameters effectively prevents catastrophic forgetting and order-sensitivity, while being computation- and memory-efficient. Further, we can achieve even better scalability with APD using hierarchical knowledge consolidation, which clusters the task-adaptive parameters to obtain hierarchically shared parameters. We validate our network with APD, APD-Net, on multiple benchmark datasets against state-of-the-art continual learning methods, which it largely outperforms in accuracy, scalability, and order-robustness.

研究の動機と目的

  • 多くのタスクへスケールさせつつ破滅的忘却を抑制する。
  • タスク列の順序依存性を緩和し、 公正で安定した性能を確保する。
  • メモリと計算資源を節約する継続学習フレームワークを提供する。
  • retroactive updates と階層的知識統合を導入して頑健性とスケーラビリティを向上させる。

提案手法

  • ネットワークパラメータを task-shared sigma と sparse task-adaptive tau に分解し、masking M_t を用いてタスク固有の使用を導く。
  • sigma、tau_t、mask パラメータを正則化付きで jointly optimize する:minimize L(...)+ lambda1||tau_t||_1 + lambda2||sigma - sigma^(t-1)||^2。
  • retroactive updates を適用:タスク t では、更新された sigma と M_i から過去の theta_i を再構成し、その後 tau_i を過去の解に近づくように更新する(Eq. 2)。
  • 階層的知識統合を用いてタスク適応パラメータをクラスタリングし、共有部と局所部品を分割して容量の成長を抑える(Eq. 3)。
  • 完了したタスクについて tau_t を削除して他のタスクに影響を与えずに選択的忘却を行う。

実験結果

リサーチクエスチョン

  • RQ1継続学習を大規模なタスク数に対してどのようにスケーラブルにし、容量の大幅な増加を回避できるか。
  • RQ2タスク列の順序感度を低減し、最終的な性能への影響を最小化できるか。
  • RQ3パラメータを共有部とスパースなタスク適応部に分解することで破滅的忘却を効果的に防げるか。
  • RQ4階層的統合により関連タスク間の知識共有を通じて効率をさらに改善できるか。
  • RQ5ターゲット外のタスクに影響を与えずに選択的忘却が実現可能か。

主な発見

  • APD-Net は最先端のベースラインよりも高い精度を達成し、拡張型メソッドに比べてはるかに小さい容量を使用する。
  • 過去のタスク適応パラメータの retroactive updates は意味的ドリフトを減少させ、順序堅牢性を改善する。
  • 階層的知識統合は容量の成長をさらに抑え、関連タスク間の転移を強化する。
  • APD-Net は大規模タスク数(例:Omniglot-rotation、100 tasks)へのスケーラビリティを示し、パラメータ成長が対数的になる。
  • 選択的忘却は他のタスクの性能を劣化させることなく、タスクのパラメータを削除できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。