[论文解读] Inapproximability for Local Correlation Clustering and Dissimilarity Hierarchical Clustering
本文为两个聚类问题建立了强有力的不可近似性结果:使用 ℓ∞-范数目标函数的局部相关聚类,以及基于最大化版本 Dasgupta 成本函数的层次聚类。通过从 Max-2Lin(q) 问题归约,并利用唯一游戏假设,作者证明了这两个问题分别难以近似至 4/3 和 9159/9189 的因子以内,从而首次为这些设置建立了 APX-难结果。
We study the Minimum Sum Vertex Cover problem, which asks for an ordering of vertices in a graph that minimizes the total cover time of edges. In particular, n vertices of the graph are visited according to an ordering, and for each edge this induces the first time it is covered. The goal of the problem is to find the ordering which minimizes the sum of the cover times over all edges in the graph. In this work we give the first explicit hardness of approximation result for Minimum Sum Vertex Cover. In particular, assuming the Unique Games Conjecture, we show that the Minimum Sum Vertex Cover problem cannot be approximated within 1.014. The best approximation ratio for Minimum Sum Vertex Cover as of now is 16/9, due to a recent work of Bansal, Batra, Farhadi, and Tetali. We also revisit an approximation algorithm for regular graphs outlined in the work of Feige, Lovász, and Tetali, and show that Minimum Sum Vertex Cover can be approximated within 1.225 on regular graphs.
研究动机与目标
- 为使用 ℓ∞-范数目标函数的局部相关聚类建立首个不可近似性结果,该目标函数旨在最小化每个节点的最大不一致数。
- 证明基于不相似信息的层次聚类中 Dasgupta 成本函数最大化版本的不可近似性。
- 证明在标准复杂性假设下,这两个问题均为 APX-难,意味着存在常数因子的不可近似性。
- 弥合现有近似算法与这些聚类目标理论近似极限之间的差距。
提出的方法
- 从 Max-2Lin(q) 问题归约,以构造具有可控一致概率的局部相关聚类实例。
- 从 Max-2Lin(q) 约束的满足赋值中构建平衡的二叉树结构,其中节点标签对应函数值。
- 利用唯一游戏假设,通过类似 Goemans-Williamson 的相关性目标分析,推导出紧致的不可近似性因子。
- 基于一致概率和节点子树大小,分析树各层级间边权重的分配。
- 通过几何级数分析,在 YES 情况下证明目标值的下界,并利用参数 ρ = −0.7 实现 α = 0.85。
- 在 NO 情况下通过考虑最坏情况的子树分布并利用 Γρ 函数的单调性,对目标值进行上界估计。
实验结果
研究问题
- RQ1使用 ℓ∞-范数目标函数的局部相关聚类是否为 APX-难,意味着存在常数因子的不可近似性?
- RQ2基于不相似信息的层次聚类中 Dasgupta 成本函数的最大化版本能否在优于 9159/9189 的因子内被近似?
- RQ3唯一游戏假设是否为基于不相似信息的层次聚类提供了紧致的不可近似性阈值?
- RQ4是否可通过从 Max-2Lin(q) 问题进行归约,并精心选择相关性参数 ρ,来建立近似难度?
- RQ5在标准复杂性假设下,这些聚类目标的最小可实现近似因子是多少?
主要发现
- 使用 ℓ∞-范数的局部相关聚类难以在 4/3 因子内近似,首次确立了该问题的 APX-难性结果。
- 在唯一游戏假设下,基于不相似信息的层次聚类中 Dasgupta 成本函数的最大化版本难以在 9159/9189 因子内近似。
- 在 YES 情况下,所构造的层次聚类实例的目标值至少为 0.9189n(当小的 ε > 0 且大的 q 时)。
- 在 NO 情况下,目标值至多为 0.9159n,严格小于 YES 情况下的值,从而形成一个间隙,证明了不可近似性结果。
- 分析依赖于 Γρ 函数的单调性,并对层次树各层级中子树权重贡献进行了精细界定。
- 选择 ρ = −0.7(接近 Max-Cut 问题中最优的 ρ ≈ −0.689)可使 YES 与 NO 情况之间的差距最大化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。