QUICK REVIEW

[論文レビュー] Efficient Lifelong Learning with A-GEM

Arslan Chaudhry, Marc’Aurelio Ranzato|arXiv (Cornell University)|Dec 2, 2018

Advanced Data Compression Techniques被引用数 576

ひとこと要約

A-GEM は、平均化された勾配制約を導入して GEM を拡張した効率的な生涯学習手法で、GEM と同様の性能を、はるかに低い計算コストとメモリコストで実現する。単一パスのストリーミングプロトコルで評価され、タスク記述子によって強化される。

ABSTRACT

In lifelong learning, the learner is presented with a sequence of tasks, incrementally building a data-driven prior which may be leveraged to speed up learning of a new task. In this work, we investigate the efficiency of current lifelong approaches, in terms of sample complexity, computational and memory cost. Towards this end, we first introduce a new and a more realistic evaluation protocol, whereby learners observe each example only once and hyper-parameter selection is done on a small and disjoint set of tasks, which is not used for the actual learning experience and evaluation. Second, we introduce a new metric measuring how quickly a learner acquires a new skill. Third, we propose an improved version of GEM (Lopez-Paz & Ranzato, 2017), dubbed Averaged GEM (A-GEM), which enjoys the same or even better performance as GEM, while being almost as computationally and memory efficient as EWC (Kirkpatrick et al., 2016) and other regularization-based methods. Finally, we show that all algorithms including A-GEM can learn even more quickly if they are provided with task descriptors specifying the classification tasks under consideration. Our experiments on several standard lifelong learning benchmarks demonstrate that A-GEM has the best trade-off between accuracy and efficiency.

研究の動機と目的

データがストリームとして到着し、過去データを過度に再訪問せずにハイパーパラメータを調整する現実的な生涯学習設定を動機づける。
計算とメモリを削減しつつ性能を維持するための、GEM のより効率的な代替案として Averaged GEM (A-GEM) を提案する。
モデルが新しいタスクをどれだけ速く獲得するかを評価する新しい学習プロトコルと学習速度指標（Learning Curve Area, LCA）を導入する。
前向き移転と少数ショット学習を改善するために、構成的なタスク記述子の使用を調べる。
標準的な生涯学習ベンチマークで A-GEM をベースラインと比較し、タスク記述子の影響を分析する。

提案手法

新しい単一パス学習プロトコルを提案し、ハイパーパラメータ選択のために分離された CV タスク集合、最終評価のための EV タスク集合を用いる。
GEM を、個々のタスクごとの制約を単一の平均メモリ勾配制約に置換して A-GEM を形成する。
閉形式の勾配投影規則を導出する: if the current gradient g violates the reference direction g_ref, project as ˜g = g - (g^T g_ref / g_ref^T g_ref) g_ref.
構成的タスク記述子を用いてタスク埋め込みを学習し、タスク横断の転送を可能にするジョイント埋め込みモデルを導入する。
ジョイント埋め込みのための交差エントロピー損失を提供する: l_k(θ, ω) = (1/N) Σ_i -log p(y_i^k | x_i^k, t^k; θ, ω) with p(c|x_i^k, t^k; θ, ω) defined by the embedded features and task descriptors.
計算上の利点を説明する: A-GEM は GEM のような大きな QP の保存と解法を避け、単一の勾配制約とエピソード記憶から計算される参照勾配を使用する。

実験結果

リサーチクエスチョン

RQ1A-GEM は、単一パス生涯学習設定で時間とメモリのオーバーヘッドを大幅に削減しつつ GEM と同等の精度を達成できるか。
RQ2構成的なタスク記述子の使用は、生涯学習における前方転送と少数ショット学習の性能にどのように影響するか。
RQ3新しい速度ベースの指標（Learning Curve Area）を導入することは、タスク間の急速なスキル獲得を意味のある指標として提供するか。
RQ4さまざまな評価プロトコルは、生涯学習手法の観察される効率性と有効性にどのような影響を与えるか。

主な発見

A-GEM は複数のベンチマークにおいて、平均精度と効率性の最良のトレードオフを提供し、GEM よりはるかに高速でメモリ効率が高い一方で、性能を満たすか超える。
正則化ベースの方法と比較して、単一パス設定で A-GEM は平均精度を高く達成する。
構成的タスク記述子を用いたジョイント埋め込みモデルは、A-GEM および他のベースラインで前方転送を改善し、学習を加速する。
タスク記述子はゼロショットおよび少数ショットの性能を向上させ、ジョイント埋め込みは時間とともにゼロショット学習の改善を示す。
Progressive networks と GEM は一部データセットで競争力のある精度を示すが、Progressive Networks ははるかに高いメモリ使用量を招き、大規模なタスクストリームでは失敗する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。