[论文解读] Meta-Learning with Latent Embedding Optimization
LEO 学习一个与数据相关的模型参数潜在嵌入,并在这个低维空间中进行基于梯度的自适应,在 mini ImageNet 和 tiered ImageNet 的少样本分类任务上实现了最先进的结果。
Gradient-based meta-learning techniques are both widely applicable and proficient at solving challenging few-shot learning and fast adaptation problems. However, they have practical difficulties when operating on high-dimensional parameter spaces in extreme low-data regimes. We show that it is possible to bypass these limitations by learning a data-dependent latent generative representation of model parameters, and performing gradient-based meta-learning in this low-dimensional latent space. The resulting approach, latent embedding optimization (LEO), decouples the gradient-based adaptation procedure from the underlying high-dimensional space of model parameters. Our evaluation shows that LEO can achieve state-of-the-art performance on the competitive miniImageNet and tieredImageNet few-shot classification tasks. Further analysis indicates LEO is able to capture uncertainty in the data, and can perform adaptation more effectively by optimizing in latent space.
研究动机与目标
- 在极端小数据情形下,解决高维模型的梯度基元学习中的样本效率缺口。
- 提出一个低维潜在空间,用于在少样本数据条件下生成和自适应模型参数。
- 在 mini ImageNet 和 tiered ImageNet 的少样本任务上展示最先进的性能。
- 研究潜在空间优化是否捕捉不确定性并支持多模态任务分布。
提出的方法
- 引入潜在嵌入优化 (LEO),它学习一个基于少样本数据条件的随机潜在空间。
- 使用关系网络将少样本样本编码为潜在编码,以捕捉类别关系。
- 将潜在编码解码以生成分类器的任务特定顶层参数。
- 对潜在编码进行内环梯度更新,然后将更新后的编码解码为新的参数。
- 通过在内环和编码器/解码器网络上反向传播验证损失来进行元训练,并对潜在空间进行 KL 正则化。
- 利用数据条件编码器和一个随机、低维的潜在空间,通过一个可微分解码器实现参数空间的梯度自适应。
实验结果
研究问题
- RQ1一个在少样本数据条件下的低维模型参数潜在空间是否能够支持有效的基于梯度的自适应?
- RQ2在潜在空间优化是否提高了少样本泛化并捕捉多模态任务分布中的不确定性?
- RQ3LEO 与现有基于优化的元学习方法在标准少样本基准上有何比较?
- RQ4通过潜在编码实现的数据相关参数初始化是否对性能提升至关重要?
主要发现
| 模型 | mini ImageNet 1-shot | mini ImageNet 5-shot | tiered ImageNet 1-shot | tiered ImageNet 5-shot |
|---|---|---|---|---|
| Meta-SGD (our features) | 54.24±0.03% | 70.86±0.04% | 62.95±0.03% | 79.34±0.06% |
| Conditional generator only | 60.33±0.11% | 74.53±0.11% | 65.17±0.15% | 78.77±0.03% |
| Conditional generator + fine-tuning | 60.62±0.31% | 76.42±0.09% | 65.74±0.28% | 80.65±0.07% |
| Previous SOTA | 59.60±0.41% | 76.70±0.30% | 57.41±0.94% | 72.69±0.74% |
| LEO (random prior) | 61.01±0.12% | 77.27±0.05% | 65.39±0.10% | 80.83±0.13% |
| LEO (deterministic) | 61.48±0.05% | 76.53±0.24% | 66.18±0.17% | 82.06±0.08% |
| LEO (no fine-tuning) | 61.62±0.15% | 77.46±0.12% | 66.14±0.17% | 80.89±0.11% |
| LEO (ours) | 61.76±0.08% | 77.59±0.12% | 66.33±0.05% | 81.44±0.09% |
- LEO 在 mini ImageNet 和 tiered ImageNet 的 1-shot 和 5-shot 任务中,使用浅层和深层骨干网均达到最新结果。
- 在 mini ImageNet 上,LEO 在报告的设置中达到 61.76%(1-shot)和 77.59%(5-shot),超越了现有方法。
- 在 tiered ImageNet 上,LEO 达到 66.33%(1-shot)和 81.44%(5-shot),超越了之前的最先进水平。
- 消融实验表明,数据条件潜在编码和潜在空间自适应对于性能都是关键的,潜在瓶颈显著提升了对参数空间直接自适应的泛化能力。
- 潜在嵌入可视化显示出显著的自适应,表明模型在 LE O 下从编码器得到的编码转向任务特定的自适应编码。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。