QUICK REVIEW

[論文レビュー] Meta-Transfer Learning for Few-Shot Learning

Qianru Sun, Yaoyao Liu|arXiv (Cornell University)|Dec 6, 2018

Domain Adaptation and Few-Shot Learning参考文献 58被引用数 32

ひとこと要約

本論文は、ニューロン活性化の学習可能なスケーリングおよびシフト操作を介して事前学習済み深層ニューラルネットワーク（DNN）を適応させる、新しい少サンプル学習手法であるメタ転送学習（MTL）を提案する。これにより、高速な収束と過学習の低減が可能となる。ハードタスク（HT）メタバッチカリキュラムで訓練されたMTLは、わずか8,000のメタトレーニングタスクで、ミニImageNetおよび少サンプルCIFAR-100で最先端の性能を達成しており、MAMLの30倍少ないタスク数で、1ショット学習において最大7%の性能向上を達成している。

ABSTRACT

Meta-learning has been proposed as a framework to address the challenging few-shot learning setting. The key idea is to leverage a large number of similar few-shot tasks in order to learn how to adapt a base-learner to a new task for which only a few labeled samples are available. As deep neural networks (DNNs) tend to overfit using a few samples only, meta-learning typically uses shallow neural networks (SNNs), thus limiting its effectiveness. In this paper we propose a novel few-shot learning method called meta-transfer learning (MTL) which learns to adapt a deep NN for few shot learning tasks. Specifically, "meta" refers to training multiple tasks, and "transfer" is achieved by learning scaling and shifting functions of DNN weights for each task. In addition, we introduce the hard task (HT) meta-batch scheme as an effective learning curriculum for MTL. We conduct experiments using (5-class, 1-shot) and (5-class, 5-shot) recognition tasks on two challenging few-shot learning benchmarks: miniImageNet and Fewshot-CIFAR100. Extensive comparisons to related works validate that our meta-transfer learning approach trained with the proposed HT meta-batch scheme achieves top performance. An ablation study also shows that both components contribute to fast convergence and high accuracy.

研究の動機と目的

限られたラベル付きデータにおける深層ニューラルネットワークの使用に伴う過学習および収束の遅さという課題に対処すること。
浅いネットワークに依存し、大量のメタタスクを必要とする既存のメタラーニング手法の限界を克服すること。
壊滅的忘却を防ぎつつ、大規模な事前学習モデルから少サンプルタスクへの効果的な転送を可能にすること。
収束を加速し、性能を向上させるより効率的なメタラーニングトレーニングカリキュラムの開発

提案手法

MTLは、最終特徴層の活性化にαX + βを適用することで、大規模な事前学習済みDNN（例：ResNet-12）から知識を転送する。ここでαはスケーリング、βはシフトパラメータである。
αおよびβをメタ学習されたハイパーパrameterとして扱い、メタ最適化により学習することで、最小限の勾配更新で新しい少サンプルタスクへの高速適応が可能になる。
動的な難易度の高いタスクをメタバッチから再サンプリングする、革新的なハードタスク（HT）メタバッチ戦略を導入し、過去の検証性能に基づいて段階的な学習カリキュラムを形成する。
全DNNの微調整を避ける代わりに、軽量なスケーリングおよびシフトパラメータのみを更新することで、過学習の低減と壊滅的忘却の防止を実現する。
モデルに依存しないアプローチであり、任意の事前学習済みDNNに適用可能で、実験によりResNet-12のような深層アーキテクチャと組み合わせて強い汎化性能を示している。
トレーニングプロセスはメタ最適化ループを用い、メタラーナーがスケーリングおよびシフトパラメータを初期化することで、少ない勾配ステップで新しいタスクへの高速適応が達成される。

実験結果

リサーチクエスチョン

RQ1限られたラベル付き例でのみ学習可能な事前学習済みDNNが、過学習を回避しつつ少サンプル学習に効果的に適応可能か。
RQ2難易度の高いタスクを優先するカリキュラムベースのメタバッチ戦略が、少サンプルメタラーニングにおける収束速度と最終的精度を向上させるか。
RQ3DNN活性化におけるスケーリングおよびシフト操作が、少サンプル適応のための効果的でパラメータ効率の良い転送メカニズムとして機能するか。
RQ4MTLの性能は、MAML や TADAM といった最先端手法と比較して、極端な1ショットおよび5ショット設定でどの程度優れているか。
RQ5提案されたHTメタバッチ戦略が、さまざまなベンチマークで学習をどの程度加速させ、耐性を向上させるか。

主な発見

HTメタバッチ戦略を用いたMTLは、ミニImageNetおよび少サンプルCIFAR-100の両方で最先端の性能を達成し、1ショット学習においてMAMLを最大7%上回っている。
ミニImageNetでは、MTLはわずか8,000のメタタスクで1ショット学習で71.2%の正確性を達成しており、MAMLの240,000タスクの30分の1で、優れた正確性を維持している。
アブレーションスタディにより、MTLメカニズムおよびHTメタバッチの両方が、収束の高速化と高い正確性に顕著に寄与していることが確認され、1ショット設定では、メタラーニングなしのベースラインを最大10.2%上回っている。
MAMLにResNet-12を適用した場合、HTメタバッチは平均で1%の性能向上をもたらし、完全なMTLでは、ミニImageNetで10%、FC100で9%の向上を達成している。
HTメタバッチにより、MTLは早期にトップ性能に到達する—FC100の1ショットでは約2,000イテレーション、5ショットでは約1,000イテレーションで達成され、収束が速いことが示された。
事前学習済みDNNを凍結し、スケーリングおよびシフトパラメータ（SS）のみをメタラーニングすることで、全パラメータの微調整（FT）よりも高い性能が得られ、特に低データ環境下で過学習が低減されるためである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。