[论文解读] Generalizing from a Few Examples: A Survey on Few-Shot Learning
一份全面的综述,定义少样本学习(FSL),区分其与相关问题,并回顾按数据、模型和算法视角分类的FSL方法学科分类,同时讨论未来方向。
Machine learning has been highly successful in data-intensive applications but is often hampered when the data set is small. Recently, Few-Shot Learning (FSL) is proposed to tackle this problem. Using prior knowledge, FSL can rapidly generalize to new tasks containing only a few samples with supervised information. In this paper, we conduct a thorough survey to fully understand FSL. Starting from a formal definition of FSL, we distinguish FSL from several relevant machine learning problems. We then point out that the core issue in FSL is that the empirical risk minimized is unreliable. Based on how prior knowledge can be used to handle this core issue, we categorize FSL methods from three perspectives: (i) data, which uses prior knowledge to augment the supervised experience; (ii) model, which uses prior knowledge to reduce the size of the hypothesis space; and (iii) algorithm, which uses prior knowledge to alter the search for the best hypothesis in the given hypothesis space. With this taxonomy, we review and discuss the pros and cons of each category. Promising directions, in the aspects of the FSL problem setups, techniques, applications and theories, are also proposed to provide insights for future research.
研究动机与目标
- 将少样本学习在与经典机器学习的关系中进行定义,并阐明其目标与范围。
- 区分FSL与相关学习问题,并识别其在经验风险最小化不可靠性方面的核心挑战。
- 提供基于数据增强、模型约束和算法搜索策略的FSL方法统一分类。
- 评审各分类中的现有工作,讨论优缺点及实际影响。
- 提出FSL在问题设定、技术、应用以及理论理解方面的有前景方向。
提出的方法
- 给出FSL的正式定义,并将其与标准机器学习定义相关联。
- 描述FSL问题的变体(例如,N-way K-shot分类、少样本回归、少样本强化学习)。
- 基于经验风险最小化的误差分解,提出按数据增强、模型约束和算法搜索进行分类的FSL方法分类。
- 综述数据增强技术,包括变换样本、弱标签/未标签数据,以及利用相似数据集;讨论优点与局限性。
- 综述通过多任务学习、嵌入、外部记忆和生成建模等约束假设空间的基于模型的方法;解释先验知识如何降低E_app和E_est。
- 概述未来在问题设定、技术、应用和理论方面的研究方向。
实验结果
研究问题
- RQ1哪种正式定义与范围最佳地概括少样本学习,以及它与传统机器学习的关系?
- RQ2如何将先验知识结合起来,以应对FSL中经验风险最小化的不可靠性?
- RQ3FSL方法的主要类别有哪些?在数据、模型和算法方法方面的优缺点比较如何?
- RQ4在跨领域提升FSL效果的有效数据增强、建模和算法策略是什么?
- RQ5在FSL理论与实践中,关键的开放问题和潜在未来方向是什么?
主要发现
- FSL与标准ML的区别主要在于标记训练数据量小,导致经验风险最小化不可靠。
- 对FSL的统一分类涵盖数据增强、模型约束和算法搜索策略。
- 基于数据的方法通过扩增D_train来增加有效样本量,从而实现更可靠的学习。
- 基于模型的方法利用先验知识约束假设空间,以在少样本条件下改善泛化。
- 算法方法通过利用先验知识来改进搜索和优化,包括好的初始初始化和引导更新。
- 该综述讨论了在问题设定、技术、应用和理论方面的优点、局限性及未来方向。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。