QUICK REVIEW

[論文レビュー] Putting An End to End-to-End: Gradient-Isolated Learning of Representations

Sindy Löwe, Peter O’Connor|arXiv (Cornell University)|May 28, 2019

Domain Adaptation and Few-Shot Learning参考文献 55被引用数 49

ひとこと要約

Greedy InfoMax (GIM) を提案します。自己教師ありで勾配を分離した層ごとの学習法で、エンドツーエンドの逆伝播ではなく各モジュールごとに相互情報量を最適化し、音声および視覚タスクに対して競争力のある表現を生み出し、非同期でメモリ効率の良い訓練を可能にします。

ABSTRACT

We propose a novel deep learning method for local self-supervised representation learning that does not require labels nor end-to-end backpropagation but exploits the natural order in data instead. Inspired by the observation that biological neural networks appear to learn without backpropagating a global error signal, we split a deep neural network into a stack of gradient-isolated modules. Each module is trained to maximally preserve the information of its inputs using the InfoNCE bound from Oord et al. [2018]. Despite this greedy training, we demonstrate that each module improves upon the output of its predecessor, and that the representations created by the top module yield highly competitive results on downstream classification tasks in the audio and visual domain. The proposal enables optimizing modules asynchronously, allowing large-scale distributed training of very deep neural networks on unlabelled datasets.

研究の動機と目的

ラベルなしでグローバルなエンドツーエンドの逆伝播なしで表現を学習する動機づけ。
情報保持の原理から着想を得た貪欲なモジュール単位の訓練スキームを開発。
局所的に訓練されたモジュールが集合して強力な下流性能を生むことを示す。
非常に深いネットワークにおけるメモリ効率と非同期訓練の実用的利点を示す。

提案手法

深層ネットワークを勾配を分離するモジュールに分割し、モジュール間の逆伝播を防ぐ勾配遮断演算子を用いる。
各モジュールを入力と出力の情報保持を最大化するローカルなInfoNCE損失で訓練する。
モジュール局所の対比損失 f_k^m(z_{t+k}^m,z_t^m) を Eq. (3)–(4) で mutual information を最大化する。
任意で自己回帰的文脈モジュール g_ar を付加し、より広い時間的または空間的文脈を集約する（Eq. (6)）。
モジュール訓練後、局所的スコアリング関数を廃止し、スタック化したエンコーダを下流特徴量に使用する。任意で別の文脈モジュールを訓練する。
反復的な相互情報量最大化は、層間で退化しない有益な表現を促すと主張する。

実験結果

リサーチクエスチョン

RQ1相互情報量最大化は、エンドツーエンドのバックプロパゲーションなしに層ごとに貪欲（勾配分離）方式で効果的に最適化できるか？
RQ2貪欲に訓練されたモジュールは視覚と音声の下流タスクの表現を徐々に改善するか？
RQ3勾配分離学習のメモリと訓練効率のトレードオフは、エンドツーエンド法と比べてどうか？
RQ4自己回帰的文脈モジュールの追加は、より広い文脈を必要とするタスクの性能にどう影響するか？

主な発見

Method	Phone Classification Accuracy (%)	Speaker Classification Accuracy (%)
Randomly initialized	27.6	1.9
MFCC features	39.7	17.6
Supervised	77.7	98.9
Greedy Supervised	73.4	98.7
CPC [Oord et al., 2018]	64.9	99.6
Greedy InfoMax (GIM)	62.5	99.4
GIM without BPTT	55.5	-
GIM without g_ar	50.8	-

GIM はエンドツーエンドのバックプロパゲーションなしで STL-10 画像分類の下流性能で競争力を示す（GIM 81.9% ±0.3 vs CPC 80.5% ±3.1）。
GIM は、ラベルが限られた場合にも、いくつかの自己教師付きベースラインを上回り、同等の監督学習法に近い表現品質を示す。
アブレーションにより、自己回帰モジュールは時間的/文脈的依存性を持つタスクで有益であり、BPTT や ar モジュールを除くとそのようなタスクで性能が低下することを示す。
Greedy、層ごとの InfoNCE 訓練は中間表現を改善し、各モジュールは下流の話者分類タスクで前任者を上回る。
GIM はメモリ効率の良い非同期訓練を可能にし、3つのモジュールを訓練することでエンドツーエンド訓練より GPU メモリ使用量を約2.8倍削減できる。
LibriSpeech では GIM は話者分類精度 99.4%、音素分類精度 62.5% を達成し、BPTT を除くまたは自己回帰成分を削除すると低下することを示すアブレーションがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。