QUICK REVIEW

[論文レビュー] Progress & Compress: A scalable framework for continual learning

Jonathan Schwarz, Jelena Luketina|arXiv (Cornell University)|May 16, 2018

Machine Learning and Algorithms被引用数 292

ひとこと要約

本論文では、スケーラブルな継続的学習フレームワークである Progress & Compress (P&C) を提案する。このフレームワークは、『進捗』フェーズ（新しいタスクがトレーナブルなアクティブコラムを介して学習される）と『圧縮』フェーズ（アクティブコラムの知識が固定された知識ベースに distillation され、修正されたエラスティックウェイトコンsolidation (EWC) を用いて過去のスキルが保護される）を交互に繰り返す。本手法は、パラメータ数を一定に保ちつつ、タスク固有のパラメータやデータリプレイを必要とせず、順次的な Omniglot 分類および強化学習タスク（Atari、3Dマズ）で最先端の性能を達成した。

ABSTRACT

We introduce a conceptually simple and scalable framework for continual learning domains where tasks are learned sequentially. Our method is constant in the number of parameters and is designed to preserve performance on previously encountered tasks while accelerating learning progress on subsequent problems. This is achieved by training a network with two components: A knowledge base, capable of solving previously encountered problems, which is connected to an active column that is employed to efficiently learn the current task. After learning a new task, the active column is distilled into the knowledge base, taking care to protect any previously acquired skills. This cycle of active learning (progression) followed by consolidation (compression) requires no architecture growth, no access to or storing of previous data or tasks, and no task-specific parameters. We demonstrate the progress & compress approach on sequential classification of handwritten alphabets as well as two reinforcement learning domains: Atari games and 3D maze navigation.

研究の動機と目的

過去のデータへのアクセスや保存を必要とせずに、継続的学習における深刻な忘却問題を解決すること。
以前に学習したタスクの特徴を再利用することで、ポジティブな前向きの転送を可能にすること。
タスク数に関係なくパラメータ数を一定に保つスケーラブルな手法を設計すること。
EWC や知識蒸留といった既存手法の長所を統合した、単一でモジュラーなフレームワークを構築すること。
教師あり（Omniglot）および強化学習（Atari、3Dマズ）の両分野において有効性を実証すること。

提案手法

フレームワークは、固定サイズの2つのコンponentから構成される：過去に学習したスキルを格納する知識ベース（KB）と、新しいタスクを学習するアクティブコラム。
『進捗』フェーズでは、アクティブコラムがKBへのレイヤーワイズの横方向接続を介して訓練され、特徴の再利用とポジティブな転送が可能になる。
『圧縮』フェーズでは、教師（アクティブコラム）と生徒（KB）の出力間の交差エントロピー損失を用いて、アクティブコラムの知識がKBに蒸留される。
蒸留の過程で、KBのパラメータが深刻な忘却から保護されるよう、エラスティックウェイトコンソリデーション（EWC）が適用される。
アクティブコラムは各新しいタスクごとに再初期化され、進捗フェーズと圧縮フェーズを交互に繰り返す。
本手法はタスク境界に依存せず、タスクラベルやデータリプレイを必要としない。

実験結果

リサーチクエスチョン

RQ1継続的学習フレームワークは、過去のデータを保存せずに、強い前向きの転送を実現しながら、深刻な忘却を最小限に抑えることができるか？
RQ2アクティブ学習と知識統合の交互なプロセスが、複数のタスクにわたる性能にどのように影響を与えるか？
RQ3固定サイズのアーキテクチャは、多数の順次的タスクに効果的にスケーリングできるか？
RQ4知識蒸留とEWCの組み合わせは、単独のEWCやLwFと比較して、継続的学習の文脈でどのように優れているか？
RQ5提案手法は、教師ありと強化学習の両分野にわたり一般化可能か？

主な発見

P&Cは、50種類のOmniglot文字アトムに対して5回の再訪問後、平均テスト精度82.84% ± 1.4を達成し、オンラインEWC やプログレッシブネットを含むすべてのベースラインを上回った。
Atariゲームでは、Space Invaders や Krull、BeamRider などの複数のゲームで顕著な性能向上を示した一方、他のゲームでも競争力のある性能を維持した。
P&Cはパラメータ数を一定（659K）に保ち、OmniglotおよびAtariベンチマークの両方で、オンラインEWC（446Kパラメータ）やLwF（217Kパラメータ）を上回った。
実験的結果から、蒸留過程でやや多くの忘却を許容すること（γ = 0.99）が全体の性能向上に寄与することが示され、安定性と柔軟性のトレードオフが存在することが示唆された。
KBからの知識再利用により、多様な分野で効果的なポジティブな前向きの転送が実現され、後続のタスクで性能向上が見られた。
タスクラベルやデータリプレイを一切必要としなかったため、曖昧なタスク境界を持つ現実世界の継続的学習に応用可能であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。