Skip to main content
QUICK REVIEW

[论文解读] On Valid Optimal Assignment Kernels and Applications to Graph Classification

Nils M. Kriege, Pierre-Louis Giscard|arXiv (Cornell University)|Jun 3, 2016
Machine Learning and Data Classification参考文献 18被引用 83
一句话总结

本文提出了一类强基核(strong base kernels),可保证最优分配核为半正定,从而实现高效且有效的图相似性度量。通过将最优分配计算简化为直方图相交,所提出的Weisfeiler-Lehman最优分配核(WL-OA)实现了线性时间计算,并在基准图数据集上达到最先进(SOTA)的分类准确率,优于大多数任务中的卷积核方法。

ABSTRACT

The success of kernel methods has initiated the design of novel positive semidefinite functions, in particular for structured data. A leading design paradigm for this is the convolution kernel, which decomposes structured objects into their parts and sums over all pairs of parts. Assignment kernels, in contrast, are obtained from an optimal bijection between parts, which can provide a more valid notion of similarity. In general however, optimal assignments yield indefinite functions, which complicates their use in kernel methods. We characterize a class of base kernels used to compare parts that guarantees positive semidefinite optimal assignment kernels. These base kernels give rise to hierarchies from which the optimal assignment kernels are computed in linear time by histogram intersection. We apply these results by developing the Weisfeiler-Lehman optimal assignment kernel for graphs. It provides high classification accuracy on widely-used benchmark data sets improving over the original Weisfeiler-Lehman kernel.

研究动机与目标

  • 确定最优分配核为半正定(p.s.d.)的条件,以确保其适用于核方法。
  • 解决基于分配的图核中不定相似性度量的局限性,否则无法用于标准核方法。
  • 开发一种高效计算最优分配核的方法,避免暴力分配评估的阶乘时间复杂度。
  • 设计一种新型图核WL-OA,结合Weisfeiler-Lehman顶点标记方案与有效最优分配核,以提升分类性能。
  • 证明最优分配核可在保持计算可行性的同时,优于卷积核方法在图分类中的表现。

提出的方法

  • 定义了一类称为“强核”的基核,其等价于定义域分层划分所导出的核。
  • 证明基于强基核构建的最优分配核为半正定,因此适用于核方法。
  • 将最优分配核的计算简化为直方图相交,利用已知优化技术实现线性时间评估。
  • 通过将Weisfeiler-Lehman顶点标记方案作为基核,将该框架应用于图,得到Weisfeiler-Lehman最优分配核(WL-OA)。
  • 利用直方图相交计算图之间的最优分配相似性,通过对其分层标签直方图进行对齐。
  • 采用基于地标(landmark-based)的表示方法,以确保与现有方法的兼容性,并支持标准核分类流水线。

实验结果

研究问题

  • RQ1哪些类别的基核可保证生成的最优分配核为半正定?
  • RQ2最优分配核能否在保持其对核方法有效性的同时实现高效计算?
  • RQ3最优分配方法在分类准确率上能否优于基于卷积的图核?
  • RQ4与现有最优分配或卷积核方法相比,所提方法是否保持计算效率?
  • RQ5能否利用强核的分层结构设计出具有线性时间复杂度的有效图核?

主要发现

  • 强基核类可确保生成的最优分配核为半正定,因此适用于核方法。
  • 基于强核的最优分配核可通过直方图相交实现线性时间计算,避免了匈牙利算法的阶乘时间复杂度。
  • 所提出的Weisfeiler-Lehman最优分配核(WL-OA)在九个基准图数据集中的七个上达到最高分类准确率。
  • 在Reddit数据集上,WL-OA实现89.3%的准确率,显著优于原始Weisfeiler-Lehman核的80.8%。
  • 在Enzymes数据集上,WL-OA达到59.9%的准确率,远超次优核方法(SP为42.6%),在复杂图结构上表现更优。
  • 所有核方法(包括WL-OA)的核矩阵计算时间均低于每数据集一分钟,仅SP在D&D(29分钟)和Reddit(2小时)上耗时较长,表明所提方法具备可扩展性与高效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。