[论文解读] D2KE: From Distance to Kernel and Embedding
该论文提出D2KE框架,可将任意非相似度度量转化为正定核及相应的向量嵌入,从而在序列和集合等结构化输入上有效应用核方法。通过基于距离度量构建随机特征映射,D2KE确保再生核Hilbert空间(RKHS)中函数的Lipschitz连续性,并在时间序列、字符串和图像数据集上,相较于k-NN及其他基于距离的方法,展现出更优的泛化能力和效率。
For many machine learning problem settings, particularly with structured inputs such as sequences or sets of objects, a distance measure between inputs can be specified more naturally than a feature representation. However, most standard machine models are designed for inputs with a vector feature representation. In this work, we consider the estimation of a function $f:\mathcal{X} ightarrow \R$ based solely on a dissimilarity measure $d:\mathcal{X} imes\mathcal{X} ightarrow \R$ between inputs. In particular, we propose a general framework to derive a family of \emph{positive definite kernels} from a given dissimilarity measure, which subsumes the widely-used \emph{representative-set method} as a special case, and relates to the well-known \emph{distance substitution kernel} in a limiting case. We show that functions in the corresponding Reproducing Kernel Hilbert Space (RKHS) are Lipschitz-continuous w.r.t. the given distance metric. We provide a tractable algorithm to estimate a function from this RKHS, and show that it enjoys better generalizability than Nearest-Neighbor estimates. Our approach draws from the literature of Random Features, but instead of deriving feature maps from an existing kernel, we construct novel kernels from a random feature map, that we specify given the distance measure. We conduct classification experiments with such disparate domains as strings, time series, and sets of vectors, where our proposed framework compares favorably to existing distance-based learning methods such as $k$-nearest-neighbors, distance-substitution kernels, pseudo-Euclidean embedding, and the representative-set method.
研究动机与目标
- 解决在难以定义特征表示但非相似度度量自然存在的结构化输入(如序列、集合)上应用标准机器学习模型的挑战。
- 开发一种通用框架,直接从给定的非相似度度量推导出正定核与向量嵌入,确保理论一致性并提升泛化能力。
- 通过从距离构造真正的正定核,克服现有基于距离方法的局限性,如k-NN(高方差)和不定核(非凸优化)。
- 通过设计在数据规模和输入长度上具有线性复杂度的可计算算法,实现高效可扩展的学习,优于二次或更高复杂度的方法。
提出的方法
- D2KE基于输入的非相似度度量构建随机特征映射,将每个实例映射到再生核Hilbert空间(RKHS)中的向量表示。
- 该框架从非相似度度量中推导出一族正定核,其包含代表性集合方法作为特例,并在极限情况下与距离替代核相关联。
- 确保所得RKHS中所有函数相对于给定距离度量均为Lipschitz连续,从而提升泛化性能。
- 该方法通过从基于距离导出的概率分布中进行随机采样生成特征,避免了显式特征分解或矩阵截断的需要。
- 提出一种可计算的估计器,实现线性时间复杂度O(NRL)的高效训练,其中N为样本数,R为随机特征数,L为输入长度。
- 通过提供任意具有定义非相似度度量的输入的有效向量表示,该框架支持标准核方法(如SVM、岭回归)。
实验结果
研究问题
- RQ1能否开发一种通用框架,直接从非相似度度量推导出正定核与向量嵌入,而无需预定义特征表示?
- RQ2如何确保所得核使得RKHS中的函数相对于输入距离度量为Lipschitz连续?
- RQ3该框架能否在准确率与计算效率两方面均优于k-NN及其他基于距离的学习方法?
- RQ4D2KE在多样化结构化数据领域中,相较于距离替代核、伪欧几里得嵌入及代表性集合方法的性能表现如何?
主要发现
- D2KE在所有数据集上均显著优于k-NN,展现出更优的泛化能力与更低的预测方差。
- 在时间序列数据上,D2KE在Auslan数据集上达到92.60%准确率,在pentip数据集上达到99.88%,超越所有基线方法,包括DSK_RBF与DSK_ND。
- 在字符串分类任务中,D2KE在mnist-str4上达到98.76%准确率,在mnist-str8上达到98.54%准确率,尽管计算成本更低,仍优于RSM与GDK_LED。
- 在图像分类任务中,D2KE在flower数据集上达到46.03%准确率,在decor数据集上达到68.76%准确率,优于RSM与DSK_ND,且显著快于基于SVD的方法。
- D2KE实现线性时间复杂度O(NRL),使其可扩展至大规模数据集与长序列,而DSK_ND或RSM等二次或更高复杂度方法则难以胜任。
- 随着随机特征数R的增加,该方法性能持续提升,最优性能在R∈[4, 4096]范围内实现,表明其能良好收敛至精确核。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。