Skip to main content
QUICK REVIEW

[论文解读] Exploring Large Feature Spaces with Hierarchical Multiple Kernel Learning

Francis Bach|ArXiv.org|Sep 9, 2008
Domain Adaptation and Few-Shot Learning参考文献 21被引用 175
一句话总结

本文提出了一种分层多核学习框架,通过利用有向无环图(DAG)组织基核,实现在大规模结构化特征空间中高效地诱导稀疏性正则化。该方法实现多项式时间计算,并在合成数据集和UCI数据集上展现出最先进水平的预测性能,尤其在非线性变量选择方面表现优异。

ABSTRACT

For supervised and unsupervised learning, positive definite kernels allow to use large and potentially infinite dimensional feature spaces with a computational cost that only depends on the number of observations. This is usually done through the penalization of predictor functions by Euclidean or Hilbertian norms. In this paper, we explore penalizing by sparsity-inducing norms such as the l1-norm or the block l1-norm. We assume that the kernel decomposes into a large sum of individual basis kernels which can be embedded in a directed acyclic graph; we show that it is then possible to perform kernel selection through a hierarchical multiple kernel learning framework, in polynomial time in the number of selected kernels. This framework is naturally applied to non linear variable selection; our extensive simulations on synthetic datasets and datasets from the UCI repository show that efficiently exploring the large feature space through sparsity-inducing norms leads to state-of-the-art predictive performance.

研究动机与目标

  • 解决在输入维度呈指数级增长的基核数量下,大规模甚至无限维特征空间中高效核选择的挑战。
  • 通过利用有向无环图(DAG)的分层结构,克服此类大规模空间中直接多核学习的计算不可行性。
  • 在DAG结构化的核分解中引入基于块ℓ¹-范数的稀疏性诱导正则化框架,实现相关特征子空间的自动选择。
  • 建立所提框架下模型选择的理论一致性条件,表明其能一致估计相关变量的凸包。
  • 通过实证结果表明,该方法在合成数据集和真实世界数据集上均显著优于标准ℓ²-正则化和基线多核学习方法的预测性能。

提出的方法

  • 将正定核分解为多个基核之和,每个基核与有向无环图(DAG)中的一个节点相关联,从而在特征空间中引入分层结构。
  • 在DAG中基于父子关系定义的组上应用块ℓ¹-范数正则化,以在组级别诱导稀疏性。
  • 设计一种优化算法,利用DAG结构实现在所选核数量的多项式时间内完成核选择,避免指数级复杂度。
  • 利用表示定理将预测函数表示为核展开的形式,使优化问题可在对偶空间中求解,同时保持结构化稀疏性。
  • 将优化问题表述为带约束的凸规划问题,约束条件强制实现分层稀疏模式,确保仅当父核被选中时,其子核才可被选择。
  • 利用组结构正则化的对偶范数推导一致性条件,借助DAG结构对对偶范数进行有界估计,以评估模型选择的可靠性。

实验结果

研究问题

  • RQ1能否在由核分解定义的大规模结构化特征空间中,有效应用稀疏性诱导正则化(如ℓ¹或块ℓ¹)?
  • RQ2当基核数量随输入维度呈指数增长时,若存在DAG结构,是否可能在多项式时间内完成核选择?
  • RQ3所提出的分层多核学习框架是否能显著提升预测性能,相较于标准ℓ²-正则化和非分层多核学习方法?
  • RQ4在所提框架中,模型一致性的必要与充分条件是什么,特别是关于相关特征子空间选择的条件?
  • RQ5该框架是否能有效用于非线性变量选择,尤其在具有复杂特征交互的高维设置中?

主要发现

  • 所提出的分层多核学习框架即使在基核总数呈指数增长时,也能实现相对于所选核数量的多项式时间高效核选择。
  • 该方法在合成数据集和标准UCI基准数据集上均实现了最先进水平的预测性能,持续优于ℓ²-正则化核方法和标准多核学习方法。
  • 理论分析表明,该框架在适当条件下能一致地选择相关变量的凸包,即可靠识别出能解释信号的最小特征组集合。
  • 当残差向量的对偶范数有界于1时,可保证模型一致性,且利用DAG结构推导出该对偶范数的显式上下界。
  • 该框架通过将基核组织为有向网格(一种DAG)自然支持非线性变量选择,从而实现对复杂分层特征交互的选择。
  • 实证结果证实,该方法始终与ℓ²-正则化方法具有竞争力,且在高维设置下,尤其当真实信号结构稀疏时,性能显著提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。