QUICK REVIEW

[論文レビュー] Meta-Learning Update Rules for Unsupervised Representation Learning

Luke Metz, Niru Maheswaranathan|arXiv (Cornell University)|Mar 31, 2018

Domain Adaptation and Few-Shot Learning参考文献 64被引用数 69

ひとこと要約

本論文は、教師なし・ニューロン局所の更新則をメタ学習し、基盤モデルを半教師付き分類に有用な表現を生成するように訓練し、アーキテクチャ、データセット、モダリティを跨ぐ強い一般化を示します。

ABSTRACT

A major goal of unsupervised learning is to discover data representations that are useful for subsequent tasks, without access to supervised labels during training. Typically, this involves minimizing a surrogate objective, such as the negative log likelihood of a generative model, with the hope that representations useful for subsequent tasks will arise as a side effect. In this work, we propose instead to directly target later desired tasks by meta-learning an unsupervised learning rule which leads to representations useful for those tasks. Specifically, we target semi-supervised classification performance, and we meta-learn an algorithm -- an unsupervised weight update rule -- that produces representations useful for this task. Additionally, we constrain our unsupervised update rule to a be a biologically-motivated, neuron-local function, which enables it to generalize to different neural network architectures, datasets, and data modalities. We show that the meta-learned update rule produces useful features and sometimes outperforms existing unsupervised learning techniques. We further show that the meta-learned unsupervised update rule generalizes to train networks with different widths, depths, and nonlinearities. It also generalizes to train on data with randomly permuted input dimensions and even generalizes from image datasets to a text task.

研究の動機と目的

下流タスクを改善することを目指して、教師なし表現学習をメタ学習の対象として動機づける。
トレーニング時にラベルなしで、半教師付き分類のための表現を直接最適化する。
アーキテクチャとデータドメインをまたいで一般化するニューロン局所の教師なし更新規則を開発する。
メタ学習された更新規則が、幅・深さ・非線形性・データモダリティの違いに転移できることを示す。

提案手法

メタパラメータθでパラメータ化された層単位のニューロン局所更新ネットワークを備えたMLPベースモデルを定式化する。
各ニューロンの隠れ状態と局所の前後シナプス活動を用いて更新する教師なし更新規則を定義する。
時間を通してメタ目的関数をバックプロパゲーションし、トランケーテッドバックプロパゲーションを用いてθを最適化する。
メタ目的は、保持したラベル付きターゲットと学習特徴からの線形回帰予測とのコサイン距離を最小化する。
ドメインとモダリティを横断する一般化を促進するため、さまざまなデータセットとベースモデルアーキテクチャで学習する。
メタ学習中に入力次元を置換して、学習規則の順列不変性を担保する。

実験結果

リサーチクエスチョン

RQ1メタ学習によって生成された学習済みの教師なし更新規則は、few-shot分類に有用な表現を生み出せるか。
RQ2メタ学習された規則は、異なるネットワークの幅・深さ・活性化関数・データモダリティに一般化するか。
RQ3メタトレーニングデータとアーキテクチャを変えることで、どの程度クロスドメイン一般化が促進されるか。
RQ4ニューロン局所更新規則は、生物学的に妥当な学習と整合しつつ、競争力のある教師なし表現品質を達成できるか。
RQ5更新規則をメタ学習することは、従来の手作りの教師なし目的と比較して転移性の点でどうか。

主な発見

メタ学習された教師なし更新規則は、保持タスクで一部の既存の教師なし手法を上回る表現を生み出す。
学習済みの規則は、見慣れない幅・深さ・非線形性を持つベースモデルへ一般化する。
この規則はデータモダリティ間で転移し、画像データセットからテキストタスクへも適用されるが、成功度は異なる。
入力次元の置換下でも性能は頑健であり、順列不変の学習挙動を示す。
多様なデータセットとアーキテクチャを用いたメタトレーニングは、ドメイン横断の一般化を向上させる。
視覚的分析は、初層のフィルターが、メタ学習を経て粗いノイズからデータセットに適した構造化特徴へ進化することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。