[論文レビュー] Self-Supervised Generalisation with Meta Auxiliary Learning
MAXL は追加データを必要とせず、メタ学習済みのラベル生成器とマルチタスク学習器を通じて補助ラベルを自動的に学習し、主要タスクの汎化能力を向上させる。
Learning with auxiliary tasks can improve the ability of a primary task to generalise. However, this comes at the cost of manually labelling auxiliary data. We propose a new method which automatically learns appropriate labels for an auxiliary task, such that any supervised learning task can be improved without requiring access to any further data. The approach is to train two neural networks: a label-generation network to predict the auxiliary labels, and a multi-task network to train the primary task alongside the auxiliary task. The loss for the label-generation network incorporates the loss of the multi-task network, and so this interaction between the two networks can be seen as a form of meta learning with a double gradient. We show that our proposed method, Meta AuXiliary Learning (MAXL), outperforms single-task learning on 7 image datasets, without requiring any additional data. We also show that MAXL outperforms several other baselines for generating auxiliary labels, and is even competitive when compared with human-defined auxiliary labels. The self-supervised nature of our method leads to a promising new direction towards automated generalisation. Source code can be found at https://github.com/lorenmt/maxl.
研究の動機と目的
- 補助学習を動機づけ、 manual auxiliary labels を用いずに汎化を高める。
- 補助ラベルを自動生成する自己教師付きフレームワークを提案する。
- 複数の画像データセットにおいて MAXL が主要タスクの精度を改善することを示す。
提案手法
- 二ネットワーク MAXL アーキテクチャ: 主要タスクと補助タスクのマルチタスクネットワーク、および補助ラベルを生成するラベル生成ネットワーク。
- 主クラスごとの階層的補助ラベル構造と、クラスごとの補助マッピングを強制する Mask SoftMax を用いたマスク付き SoftMax。
- ラベル生成器を主要タスクの性能でトレーニングするメタ学習の勾配流れ(二次微分ヘッセ行列のトリック)。
- 補助ラベル分布のエントロピー正則化による崩壊防止。
- 主要タスクと補助タスクの両方に対してフォーカル損失を使用し、難例に焦点を当てる。
- 生成された補助ラベルを用いたマルチタスクネットワークの更新と、主要タスクの性能を通じたラベル生成器の更新を交互に実施。
実験結果
リサーチクエスチョン
- RQ1自己生成された補助ラベル空間は追加データなしで主要タスクの汎化を改善できるか。
- RQ2自動生成された補助ラベルは、ランダム・非教師付きクラスタリング・人間定義の補助と比較してどれほど有効か。
- RQ3階層的補助ラベル構造を取り入れることは、データセット間で性能に影響を与えるか。
- RQ4MAXL を使用する際の補助損失と主要損失の勾配類似性のダイナミクスはどうなるか。
- RQ5監督なしでも MAXL が人手で定義された補助ラベルの性能に近づくか、あるいは到達することができるか。
主な発見
| データセット | バックボーン | 単一タスク | MAXL psi=2 | MAXL psi=3 | MAXL psi=5 | MAXL psi=10 |
|---|---|---|---|---|---|---|
| MNIST | 4-layer ConvNet | 99.57 ± 0.02 | 99.56 ± 0.04 | 99.71 ± 0.02 | 99.59 ± 0.03 | 99.57 ± 0.02 |
| SVHN | 4-layer ConvNet | 94.05 ± 0.07 | 94.39 ± 0.08 | 94.38 ± 0.07 | 94.59 ± 0.12 | 94.41 ± 0.09 |
| CIFAR-10 | VGG-16 | 92.77 ± 0.13 | 93.27 ± 0.09 | 93.47 ± 0.08 | 93.49 ± 0.05 | 93.10 ± 0.08 |
| ImageNet | VGG-16 | 46.67 ± 0.12 | 46.82 ± 0.14 | 46.97 ± 0.10 | 47.02 ± 0.11 | 46.85 ± 0.11 |
| CINIC-10 | ResNet-32 | 85.12 ± 0.08 | 85.66 ± 0.07 | 85.72 ± 0.07 | 85.83 ± 0.08 | 85.80 ± 0.10 |
| UCF-101 | ResNet-32 | 53.15 ± 0.12 | 54.19 ± 0.18 | 55.39 ± 0.16 | 54.70 ± 0.12 | 54.32 ± 0.18 |
- MAXL は同じラベル付きデータを用いて、単一タスク学習より七つの画像データセットで優位性を示す。
- MAXL はベースラインの補助ラベル生成法(Random、K-Means)を上回り、CIFAR-100 では人間定義の補助ラベルと競合できる。
- CIFAR-100 の階層構造において、MAXL はトレーニング全体を通じて高い補助勾配有用性(正の余弦類似度)を維持し、固定ラベルのベースラインとは異なる。
- MAXL は t-SNE の可視化で単一タスクと比較して主要タスクの分離性を改善し、人間の補助ラベルと達成される分離に近づく。
- 方法はデータセット固有の調整を必要とせず、さまざまな階層(psi 値)の範囲でも頑健である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。