[論文レビュー] Empirical Bayes Transductive Meta-Learning with Synthetic Gradients
この論文は、経験的ベイズと合成勾配を用いた転置伝導的メタ学習法を導入し、ラベルなしのクエリデータを活用して、少数ショットベンチマークで最先端の結果を達成する。
We propose a meta-learning approach that learns from multiple tasks in a transductive setting, by leveraging the unlabeled query set in addition to the support set to generate a more powerful model for each task. To develop our framework, we revisit the empirical Bayes formulation for multi-task learning. The evidence lower bound of the marginal log-likelihood of empirical Bayes decomposes as a sum of local KL divergences between the variational posterior and the true posterior on the query set of each task. We derive a novel amortized variational inference that couples all the variational posteriors via a meta-model, which consists of a synthetic gradient network and an initialization network. Each variational posterior is derived from synthetic gradient descent to approximate the true posterior on the query set, although where we do not have access to the true gradient. Our results on the Mini-ImageNet and CIFAR-FS benchmarks for episodic few-shot classification outperform previous state-of-the-art methods. Besides, we conduct two zero-shot learning experiments to further explore the potential of the synthetic gradient.
研究の動機と目的
- ラベルなしのクエリデータを活用してタスク固有モデルを改善する転置設定のメタ学習を動機付ける。
- クエリセットを組み込む多タスクメタ学習のための経験的ベイズ定式化を開発する。
- 合成勾配ネットワークを介したEBモデルのアモルタイズド推論を提案する。
- 転置的な変分後方分布が一般化を改善できることを示す。
- 標準的な少数ショットベンチマークで実証的に検証し、ゼロショットの可能性を探る。
提案手法
- メタ学習を、タスク固有の重みと共有メタパラメータを持つ経験的ベイズモデルとして定式化する。
- 変分後方分布 q_theta(w_t) およびアモルタイズド推論ネットワーク q_phi(d_t^l, x_t) を導入し、ラベル付きサポートとラベルなしクエリデータの両方を組み込む。
- 本物の勾配にアクセスせずにラベルなしデータから近似するため、合成勾配を用いて真の勾配を近似する厳密推論ダイナミクスを展開する。勾配ネット xi と初期化ネット lambda。
- 内側の最適化を theta_t^{k+1} = theta_t^k - eta [ E_epsilon[ (1/n) sum_i xi(y_hat_{t,i}) ∂y_hat_{t,i}/∂w_t ∂w_t/∂theta_t ] + ∇_{theta_t} KL(q_{theta_t^k}(w_t) || p_psi(w_t)) ], 式(10) に一致。
- 訓練目的をタスク全体のKL-ELBOの総和として定義し、情報ボトルネック解釈と呼ばれる Synthetic Information Bottleneck (SIB) に接続。
- 実用的なアルゴリズム(Algorithm 1)を提供し、f, psi, phi (lambda, xi) を内側の合成勾配ステップで訓練する。
実験結果
リサーチクエスチョン
- RQ1転置推論によってラベルなしのクエリ入力を使用することで、従来の帰納的アプローチよりメタ学習の一般化を改善できるか。
- RQ2経験的ベイズを用いたメタ学習と合成勾配は標準ベンチマークで少数ショットの性能を改善できるか。
- RQ3転置的な変分後方分布はマルチタスク設定における情報ボトルネックに基づく一般化とどのように関係するか。
- RQ4合成勾配ステップの数 K を変えると性能にどう影響するか。
- RQ5サポートラベルが全く得られないゼロショット学習のシナリオへ手法を拡張できるか。
主な発見
| 手法 | バックボーン | 1-shot | 5-shot | 1-shot (CIFAR-FS) | 5-shot (CIFAR-FS) |
|---|---|---|---|---|---|
| Matching Net (Vinyals et al., 2016) | Conv-4-64 | 44.2% | 57% | – | – |
| MAML (Finn et al., 2017) | Conv-4-64 | 48.7 ± 1.8% | 63.1 ± 0.9% | 58.9 ± 1.9% | 71.5 ± 1.0% |
| Prototypical Net (Snell et al., 2017) | Conv-4-64 | 49.4 ± 0.8% | 68.2 ± 0.7% | 55.5 ± 0.7% | 72.0 ± 0.6% |
| Relation Net (Sung et al., 2018) | Conv-4-64 | 50.4 ± 0.8% | 65.3 ± 0.7% | 55.0 ± 1.0% | 69.3 ± 0.8% |
| GNN (Satorras & Bruna, 2017) | Conv-4-64 | 50.3% | 66.4% | 61.9% | 75.3% |
| R2-D2 (Bertinetto et al., 2018) | Conv-4-64 | 49.5 ± 0.2% | 65.4 ± 0.2% | 62.3 ± 0.2% | 77.4 ± 0.2% |
| TPN (Liu et al., 2018) | Conv-4-64 | 55.5% | 69.9% | – | – |
| Gidaris & Komodakis (2018) | Conv-4-64 | 54.8 ± 0.4% | 71.9 ± 0.3% | 63.5 ± 0.3% | 79.8 ± 0.2% |
| SIB K=0 (Pre-trained feature) | Conv-4-64 | 50.0 ± 0.4% | 67.0 ± 0.4% | 59.2 ± 0.5% | 75.4 ± 0.4% |
| SIB η=1e-3, K=3 | Conv-4-64 | 58.0 ± 0.6% | 70.7 ± 0.4% | 68.7 ± 0.6% | 77.1 ± 0.4% |
| SIB η=1e-3, K=0 | Conv-4-128 | 53.62 ± 0.79% | 71.48 ± 0.64% | – | – |
| SIB η=1e-3, K=1 | Conv-4-128 | 58.74 ± 0.89% | 74.12 ± 0.63% | – | – |
| SIB η=1e-3, K=3 | Conv-4-128 | 62.59 ± 1.02% | 75.43 ± 0.67% | – | – |
| SIB η=1e-3, K=5 | Conv-4-128 | 63.26 ± 1.07% | 75.73 ± 0.71% | – | – |
| SIB η=1e-3, K=0 | WRN-28-10 | 60.6 ± 0.4% | 77.5 ± 0.3% | 70.0 ± 0.5% | 83.5 ± 0.4% |
| SIB η=1e-3, K=1 | WRN-28-10 | 67.3 ± 0.5% | 78.8 ± 0.4% | 76.8 ± 0.5% | 84.9 ± 0.4% |
| SIB η=1e-3, K=3 | WRN-28-10 | 69.6 ± 0.6% | 78.9 ± 0.4% | 78.4 ± 0.6% | 85.3 ± 0.4% |
| SIB η=1e-3, K=5 | WRN-28-10 | 70.0 ± 0.6% | 79.2 ± 0.4% | 80.0 ± 0.6% | 85.3 ± 0.4% |
- SIBと合成勾配は、MiniImageNetおよびCIFAR-FSで1-shot精度を複数のベースラインよりも大幅に向上させる。
- K を 0 から 3 または 5 に増やすと、複数のバックボーンで1-shot設定の性能が向上する。
- 5-shot では、バックボーン次第で最先端と競合するが、常に最も強力な転置法や CTM/Gidaris らの変種を超えるとは限らない。
- 本手法は異なる特徴バックボーン(Conv-4-64、Conv-4-128、WRN-28-10)に対して頑健であることを示す。
- ゼロショット回帰タスクも検討しており、標準的なメタ学習を超える合成勾配フレームワークの可能性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。