Skip to main content
QUICK REVIEW

[论文解读] The Tandem Duplication Distance Is NP-Hard

Manuel Lafond, Binhai Zhu|arXiv (Cornell University)|Jun 12, 2019
Algorithms and Data Compression参考文献 25被引用 3
一句话总结

该论文证明了计算两个字符串之间的串联重复(TD)距离是 NP-难的,即使在源字符串为典范型(所有字符互异)的情况下也是如此,解决了自2004年以来长期悬而未决的问题。作者通过引入一个名为 Cost-Efficient Subgraph 的新问题,提出了一种新颖的归约方法,并进一步证明当以重复次数 k 为参数时,典范型 TD 距离问题是固定参数可追踪的(FPT),并给出了时间复杂度为 2^O(k²) 的算法,该算法使用了指数规模的核。

ABSTRACT

In computational biology, tandem duplication is an important biological phenomenon which can occur either at the genome or at the DNA level. A tandem duplication takes a copy of a genome segment and inserts it right after the segment - this can be represented as the string operation AXB ⇒ AXXB. Tandem exon duplications have been found in many species such as human, fly or worm, and have been largely studied in computational biology. The Tandem Duplication (TD) distance problem we investigate in this paper is defined as follows: given two strings S and T over the same alphabet, compute the smallest sequence of tandem duplications required to convert S to T. The natural question of whether the TD distance can be computed in polynomial time was posed in 2004 by Leupold et al. and had remained open, despite the fact that tandem duplications have received much attention ever since. In this paper, we prove that this problem is NP-hard, settling the 16-year old open problem. We further show that this hardness holds even if all characters of S are distinct. This is known as the exemplar TD distance, which is of special relevance in bioinformatics. One of the tools we develop for the reduction is a new problem called the Cost-Effective Subgraph, for which we obtain W[1]-hardness results that might be of independent interest. We finally show that computing the exemplar TD distance between S and T is fixed-parameter tractable. Our results open the door to many other questions, and we conclude with several open problems.

研究动机与目标

  • 为 Leupold 等人(2004 年)提出的关于串联重复(TD)距离问题计算复杂性的开放问题提供解答。
  • 证明计算将字符串 S 转换为字符串 T 所需的最小串联重复次数是 NP-难的,即使 S 为典范型(所有字符互异)。
  • 提出一个新的问题 Cost-Efficient Subgraph 作为技术工具用于归约,并证明其在参数 p + c 下为 W[1]-难。
  • 证明当以重复次数 k 为参数时,典范型 TD 距离问题为固定参数可追踪(FPT)问题。

提出的方法

  • 将 TD 距离问题的 NP-难性归约为新引入的问题 Cost-Efficient Subgraph,该问题涉及在图中选择顶点子集,以最小化一个平衡边覆盖与子集大小的代价函数。
  • 通过分析最大 (S,T)-稳定子串的结构,证明若 dist_TD(S,T) ≤ k,则此类子串的数量至多为 2k + 1,从而实现核化。
  • 通过将每个最大 (S,T)-稳定子串收缩为一个唯一字符,构造出核 (S′, T′),使得 S′ 的大小至多为 2k + 1,T′ 的大小至多为 (2k + 1)^{2k}。
  • 在核上应用暴力搜索算法,以时间复杂度 2^{O(k²)} + poly(n) 解决典范型 k-TD 问题,利用了核的有界大小。
  • 证明 Cost-Efficient Subgraph 问题在参数 p + c 下为 W[1]-难,其中 p 为低于上界 c|E(G)| 的节省量。

实验结果

研究问题

  • RQ1即使源字符串 S 为典范型(即所有字符互异),串联重复距离问题是否为 NP-难?
  • RQ2能否在多项式时间内计算将 S 转换为 T 所需的最小串联重复次数?
  • RQ3当以重复次数 k 为参数时,典范型 TD 距离问题是否具有固定参数可追踪(FPT)算法?
  • RQ4典范型 k-TD 问题是否存在多项式规模的核?
  • RQ5能否在多项式时间内判断 S 是否可通过串联重复变换为 T?

主要发现

  • 串联重复距离问题即使在源字符串 S 为典范型时也是 NP-难的,解决了自 2004 年以来的开放问题。
  • 该难解性结果在 S 中所有字符互异时依然成立,这在生物信息学中具有特殊意义,可用于建模复制前的基因组。
  • 作者引入并分析了一个新问题 Cost-Efficient Subgraph,其在参数 p + c 下为 W[1]-难,并将其作为 NP-难性归约的关键组件。
  • 当以 k 为参数时,典范型 TD 距离问题为固定参数可追踪(FPT)问题,时间复杂度为 2^{O(k²)} + poly(n),通过使用指数规模核实现。
  • 核化过程将输入字符串 S 和 T 简化为等价的字符串 S′ 和 T′,其大小分别至多为 2k + 1 和 (2k + 1)^{2k},同时保持所需重复次数不变。
  • 本文未解决的问题包括:k-TD 问题是否仅以 k 为参数时为 FPT,是否具有多项式规模核,以及在字母表大小固定时是否属于 P 类。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。