Skip to main content
QUICK REVIEW

[论文解读] Learning to Link

Maria-Florina Balcan, Travis Dick|arXiv (Cornell University)|Apr 30, 2020
Face and Expression Recognition参考文献 21被引用 9
一句话总结

本文提出一种数据驱动方法,联合学习适用于特定应用的最优聚类算法与距离度量。该方法使用基础距离的凸组合以及参数化的链接方法(例如,单链、全链),通过在应用特定的聚类实例上进行训练,在真实世界数据集上显著提升了聚类性能。

ABSTRACT

Clustering is an important part of many modern data analysis pipelines, including network analysis and data retrieval. There are many different clustering algorithms developed by various communities, and it is often not clear which algorithm will give the best performance on a specific clustering task. Similarly, we often have multiple ways to measure distances between data points, and the best clustering performance might require a non-trivial combination of those metrics. In this work, we study data-driven algorithm selection and metric learning for clustering problems, where the goal is to simultaneously learn the best algorithm and metric for a specific application. The family of clustering algorithms we consider is parameterized linkage based procedures that includes single and complete linkage. The family of distance functions we learn over are convex combinations of base distance functions. We design efficient learning algorithms which receive samples from an application-specific distribution over clustering instances and learn a near-optimal distance and clustering algorithm from these classes. We also carry out a comprehensive empirical evaluation of our techniques showing that they can lead to significantly improved clustering performance on real-world datasets.

研究动机与目标

  • 为解决在给定应用中选择最佳聚类算法与距离度量的挑战,其中传统选择往往次优。
  • 开发一个统一框架,从应用特定的数据样本中学习最优距离函数(作为基础度量的凸组合)与最佳基于链接的聚类算法。
  • 通过联合优化算法族与度量空间,而非将它们视为独立选择,来提升聚类性能。
  • 设计一种高效的学习算法,即使在有限的应用特定训练实例下,也能在多样化聚类任务中实现良好泛化。

提出的方法

  • 该方法将距离函数建模为预定义基础距离函数的凸组合,从而实现灵活且可学习的相似性度量。
  • 通过基于链接的程序对聚类算法进行参数化,包括单链和全链,其可学习参数控制链接策略。
  • 设计联合优化框架,基于目标应用的标注聚类实例,选择最优的距离权重与链接参数组合。
  • 学习过程使用可微分的代理目标,以实现对度量与算法组合空间的高效优化。
  • 该框架在从目标应用中采样的聚类实例分布上进行训练,从而适应特定的数据特征。

实验结果

研究问题

  • RQ1对于给定应用,哪些基础距离函数与基于链接的聚类算法组合能实现最高的聚类性能?
  • RQ2数据驱动方法能否联合优化距离度量与聚类算法,从而超越固定或人工调优的配置?
  • RQ3使用基础距离的凸组合在捕捉应用特定的相似性结构方面有多有效?
  • RQ4所提出方法在不同真实世界聚类任务中的泛化能力如何?

主要发现

  • 与标准基线算法和固定度量选择相比,所提出方法在真实世界数据集上实现了显著提升的聚类性能。
  • 联合学习距离度量与聚类算法的效果优于单独优化任一组分。
  • 使用基础距离的凸组合能够实现有效且灵活的度量学习,可自适应于底层数据分布。
  • 该框架在多样化聚类任务中表现出强大的泛化能力,即使训练实例有限。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。