Skip to main content
QUICK REVIEW

[论文解读] A Structured Prediction Approach for Label Ranking

Anna Korba, Alexandre Garcia|arXiv (Cornell University)|Jul 6, 2018
Machine Learning and Data Classification参考文献 1被引用 18
一句话总结

本文通过将标签排序问题形式化为具有排名数据专用嵌入的最小二乘代理回归问题,提出了一种结构化预测方法。该方法引入了三种嵌入——Kemeny、Lehmer 和 Hamming 嵌入,每种嵌入均支持高效的预像恢复,并在基准数据集上实现了最先进性能,多个数据集上的 Kendall’s τ 分数持续高于 0.92。

ABSTRACT

We propose to solve a label ranking problem as a structured output regression task. We adopt a least square surrogate loss approach that solves a supervised learning problem in two steps: the regression step in a well-chosen feature space and the pre-image step. We use specific feature maps/embeddings for ranking data, which convert any ranking/permutation into a vector representation. These embeddings are all well-tailored for our approach, either by resulting in consistent estimators, or by solving trivially the pre-image problem which is often the bottleneck in structured prediction. We also propose their natural extension to the case of partial rankings and prove their efficiency on real-world datasets.

研究动机与目标

  • 解决作为结构化输出空间预测问题的标签排序挑战。
  • 开发用于排名数据的嵌入,以确保一致的估计器和可处理的预像解。
  • 将该框架扩展至部分和不完整排名,包括 top-k 和成对比较。
  • 为所提出的嵌入和回归框架提供理论保证和算法效率。
  • 在真实世界数据集上通过实证验证该方法相对于最先进方法的性能。

提出的方法

  • 使用最小二乘代理损失函数,将标签排序形式化为结构化输出回归问题。
  • 采用专用的特征映射(嵌入)将排名表示在希尔伯特空间中:Kemeny、Lehmer 和 Hamming 嵌入。
  • 使用 Kemeny 嵌入以最小化平方 Kendall’s tau 距离之和,实现一致估计。
  • 应用 Lehmer 嵌入,通过逆映射实现平凡的预像恢复,避免 NP-难优化。
  • 使用 Hamming 嵌入处理部分排名,其预像步骤通过求解凸优化问题完成。
  • 在两阶段学习流程中将嵌入步骤与回归器(kNN 或 Ridge)结合:先在希尔伯特空间中进行回归,再进行预像恢复。

实验结果

研究问题

  • RQ1标签排序能否通过最小二乘代理损失有效建模为结构化预测问题?
  • RQ2所提出的嵌入(Kemeny、Lehmer、Hamming)是否能确保一致的估计器和高效的预像恢复?
  • RQ3这些嵌入及其预像步骤的算法复杂度与现有方法相比如何?
  • RQ4在标准基准数据集上,该方法的实证性能在 Kendall’s τ 指标上的表现如何?
  • RQ5该框架能否自然地扩展至部分和不完整排名,如 top-k 或成对排名?

主要发现

  • 基于 Kemeny 和 Lehmer 嵌入的模型在所有基准数据集上的平均 Kendall’s τ 分数均超过 0.92,其中基于 Kemeny 嵌入的 kNN 模型在作者身份数据集上达到 0.94±0.02。
  • Lehmer 嵌入使 kNN 预测的复杂度达到 O(KN),显著快于先前方法所需的 O(NK log K) 排序步骤。
  • Hamming 嵌入在 Kendall’s τ 上表现较差,但在最小化汉明距离方面表现出色,表明其适用于不同的评估标准。
  • 采用 Ridge 回归与 Lehmer 嵋入的框架在作者身份数据集上达到 0.92±0.02 的 Kendall’s τ,某些情况下优于最先进方法 Cheng PL(0.94±0.02)。
  • 该方法在 wine 和 iris 等数据集上与近期方法如 Random Forest Label Ranking (Zhou RF) 保持竞争力。
  • 理论分析证实,代理风险的控制可保证真实风险的控制,验证了该方法的一致性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。