[论文解读] Hierarchically Structured Meta-learning
HSML 在梯度基元学习之上学习面向任务簇的定制化元知识,在 toy 回归和少样本图像分类任务中达到最先进的结果,同时在簇内保持泛化。
In order to learn quickly with few samples, meta-learning utilizes prior knowledge learned from previous tasks. However, a critical challenge in meta-learning is task uncertainty and heterogeneity, which can not be handled via globally sharing knowledge among tasks. In this paper, based on gradient-based meta-learning, we propose a hierarchically structured meta-learning (HSML) algorithm that explicitly tailors the transferable knowledge to different clusters of tasks. Inspired by the way human beings organize knowledge, we resort to a hierarchical task clustering structure to cluster tasks. As a result, the proposed approach not only addresses the challenge via the knowledge customization to different clusters of tasks, but also preserves knowledge generalization among a cluster of similar tasks. To tackle the changing of task relationship, in addition, we extend the hierarchical structure to a continual learning environment. The experimental results show that our approach can achieve state-of-the-art performance in both toy-regression and few-shot image classification problems.
研究动机与目标
- 通过将知识分层结构化而非全局化,激励元学习以应对任务的不确定性和异质性。
- 提出 HSML 对任务进行聚类并为每个簇定制初始化以实现快速适应。
- 通过在新任务到来时更新分层聚类结构来实现持续学习。
- 在 toy 回归和少样本图像分类任务上展示相对于基线的实证提升。
- 提供理论见解,展示簇特定初始化潜在的泛化收益。
提出的方法
- 用聚合其训练样本的方式表示每个任务,使用 pooling autoencoder (PAA) 或 recurrent autoencoder (RAA) 来获得任务嵌入。
- 构建一个可微的分层聚类结构,在多个层次上将任务软分配到簇并在线更新簇表示。
- 引入一个簇特定参数门,将全局共用初始化转换为簇特定初始化,以进行基于梯度的自适应。
- 共同优化聚类参数、基础元学习者初始化和适应规则,损失函数结合元测试性能和重建损失。
- 通过在新任务无法适配现有簇时扩展聚类结构,并通过重新加权先验知识来支持持续适应。
实验结果
研究问题
- RQ1HSML 是否能在合成与真实世界的少样本任务上超过现有基于梯度的元学习方法?
- RQ2分层聚类是否能产生日志可解释的任务关系和有意义的簇?
- RQ3在持续学习设置中,HSML 是否能自适应其聚类结构以适应不断变化的任务分布?
- RQ4将初始化适应于任务簇相对于使用单一全局初始化,会带来哪些潜在的泛化理论收益?
主要发现
| 模型 | Bird (5-way 1-shot) | Texture (5-way 1-shot) | Aircraft (5-way 1-shot) | Fungi (5-way 1-shot) | 平均值 (5-way 1-shot) | Bird (5-way 5-shot) | Texture (5-way 5-shot) | Aircraft (5-way 5-shot) | Fungi (5-wide 5-shot) | 平均值 (5-way 5-shot) |
|---|---|---|---|---|---|---|---|---|---|---|
| MAML | 53.94±1.45% | 31.66±1.31% | 51.37±1.38% | 42.12±1.36% | 44.77% | 68.52±0.79% | 44.56±0.68% | 66.18±0.71% | 51.85±0.85% | 57.78% |
| Meta-SGD | 55.58±1.43% | 32.38±1.32% | 52.99±1.36% | 41.74±1.34% | 45.67% | 67.87±0.74% | 45.49±0.68% | 66.84±0.70% | 52.51±0.81% | 58.18% |
| MT-Net | 58.72±1.43% | 32.80±1.35% | 47.72±1.46% | 43.11±1.42% | 45.59% | 69.22±0.75% | 46.57±0.70% | 63.03±0.69% | 53.49±0.83% | 58.08% |
| BMAML | 54.89±1.48% | 32.53±1.33% | 53.63±1.37% | 42.50±1.33% | 45.89% | 69.01±0.74% | 46.06±0.69% | 65.74±0.67% | 52.43±0.84% | 58.31% |
| MUMOMAML | 56.82±1.49% | 33.81±1.36% | 53.14±1.39% | 42.22±1.40% | 46.50% | 70.49±0.76% | 45.89±1.36% | 67.31±0.68% | 53.96±0.82% | 59.41% |
| HSML (ours) | 60.98±1.50% | 35.01±1.36% | 57.38±1.40% | 44.02±1.39% | 49.35% | 71.68±0.73% | 48.08±0.69% | 73.49±0.68% | 56.32±0.80% | 62.39% |
- HSML 在 toy 5-shot/10-shot 回归任务上相对于基线(如 MAML 和 MT-Net)具有更好的均方误差。
- 在四个数据集的少样本图像分类任务中,HSML 取得最高的平均准确度,在 5-way 1-shot 和 5-shot 设置中均持续优于基线。
- HSML 的软任务聚类揭示了与任务类型相关的可解释簇对齐,体现其发现任务之间有意义关系的能力。
- 在持续适应实验中,HSML-D(动态聚类)优于固定聚类变体,展示对分布漂移的鲁棒性。
- 理论分析表明,通过使簇特定初始化成为可能,HSML 能比 MAML 提供更紧的泛化界限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。