QUICK REVIEW

[論文レビュー] Gradient based sample selection for online continual learning

Rahaf Aljundi, Min Lin|arXiv (Cornell University)|Mar 20, 2019

Domain Adaptation and Few-Shot Learning参考文献 26被引用数 79

ひとこと要約

この論文はリプレイバッファの充填を制約削減問題として定式化し、格子/勾配ベースの代理を導入して格納サンプルの多様性を最大化し、タスク境界なしでオンライン継続学習を可能にする。厳密解（IQP）と安価なグリーディ法の両方を提供し、ベンチマーク全体で競争力のある結果を示す。

ABSTRACT

A continual learning agent learns online with a non-stationary and never-ending stream of data. The key to such learning process is to overcome the catastrophic forgetting of previously seen data, which is a well known problem of neural networks. To prevent forgetting, a replay buffer is usually employed to store the previous data for the purpose of rehearsal. Previous works often depend on task boundary and i.i.d. assumptions to properly select samples for the replay buffer. In this work, we formulate sample selection as a constraint reduction problem based on the constrained optimization view of continual learning. The goal is to select a fixed subset of constraints that best approximate the feasible region defined by the original constraints. We show that it is equivalent to maximizing the diversity of samples in the replay buffer with parameters gradient as the feature. We further develop a greedy alternative that is cheap and efficient. The advantage of the proposed method is demonstrated by comparing to other alternatives under the continual learning setting. Further comparisons are made against state of the art methods that rely on task boundaries which show comparable or even better results for our method.

研究の動機と目的

オンラインでの非独立同分布データストリームにおけるタスク境界なしの継続学習を動機付ける。
リプレイバッファの充填を制約削減問題として定式化する。
実現可能領域の最小化を近似する勾配多様性に基づく代理目的関数を導入する。
バッファ充填のための効率的なオンラインアルゴリズム（IQPとグリーディ）を提供する。
タスク境界仮定なしでベンチマーク継続学習データセット上で競争力のある性能を示す。

提案手法

継続学習を過去データからの制約を含むパラメータ空間上の制約付き最適化問題として定式化する。
feasible region を勾配内積で表現し、固定サイズのリプレイバッファを用いてそれを維持する。
正規化された勾配内積の和を最小化する代理目的関数を提案し、多様性を最大化する（式(7)）。
代理関数を実固角最小化と関連づけ、勾配方向の分散最大化と同値であることを示す（式(8)）。
代理目的を最小化するサブセット（サンプル）を選択する厳密な勾配ベースの IQP 法（アルゴリズム1）を提供する。
コストを抑えたグリーディな代替手法（アルゴリズム2）を提示し、サンプルを最大コサイン類似度でスコア付けし、バッファ項目を確率的に置換する。
リハーサル（正則化）が制約付き最適化とどのように関係するかを論じ、アプローチを経験的に比較する。

実験結果

リサーチクエスチョン

RQ1タスク境界やi.i.d.仮定を知らなくてもリプレイバッファを効果的に充填できるか。
RQ2勾配ベースの多様性基準は元の制約が示す実現可能領域の最小化を信頼性高く近似するか。
RQ3オンラインの勾配ベース選択法（IQPとグリーディ）は計算的に実行可能で、標準的な継続学習ベンチマークで経験的に競争力があるか。
RQ4非定常データストリーム下で貯蔵サンプル法とタスク認識的リプレイベースラインを比較するとどうか。

主な発見

勾配ベースの代理は実現可能領域のソリッド角度尺度と単調に相関し、目的としての使用を正当化する。
オンラインの勾配ベース法は、非タスク境界設定下のMNISTおよびCIFAR-10タスクでランダムサンプリングやいくつかのクラスタリングベースのベースラインより優れている。
グリーディ変種（GSS-Greedy）は計算効率が高く、特にCIFAR-10で他の戦略と同等以上の性能を発揮する。
不均衡データ系列におけるリザーバサンプリングと比較して、提案法は平均精度と過少表現タスクへのロバスト性が向上する。
GEMやiCaRLなどのタスク認識型リプレイベースラインと同等またはそれ以上の性能を達成するケースがあり、タスク境界情報を使用しない点にも適合する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。