Skip to main content
QUICK REVIEW

[论文解读] Reconstructing Strings from Substrings: Optimal Randomized and Average-Case Algorithms

Kazuo Iwama, Junichi Teruyama|arXiv (Cornell University)|Aug 2, 2018
Algorithms and Data Compression参考文献 9被引用 4
一句话总结

本文提出了两种最优算法,用于从子串查询中重构已知长度为 n 的二进制字符串:一种随机化算法,以高概率实现 n + O(1) 次查询;一种平均情况下的确定性算法,具有相同的查询复杂度。两者通过利用子串出现的概率特性以及自适应种子扩展策略,克服了以往工作中长期存在的 O(log n) 间隙,实现了在加法常数范围内的最优性。

ABSTRACT

The problem called "String reconstruction from substrings" is a mathematical model of sequencing by hybridization that plays an important role in DNA sequencing. In this problem, we are given a blackbox oracle holding an unknown string ${\mathcal X}$ and are required to obtain (reconstruct) ${\mathcal X}$ through "substring queries" $Q(S)$. $Q(S)$ is given to the oracle with a string $S$ and the answer of the oracle is Yes if ${\mathcal X}$ includes $S$ as a substring and No otherwise. Our goal is to minimize the number of queries for the reconstruction. In this paper, we deal with only binary strings for ${\mathcal X}$ whose length $n$ is given in advance by using a sequence of good $S$'s. In 1995, Skiena and Sundaram first studied this problem and obtained an algorithm whose query complexity is $n+O(\log n)$. Its information theoretic lower bound is $n$, and they posed an obvious open question; if we can remove the $O(\log n)$ additive term. No progress has been made until now. This paper gives two partially positive answers to this open question. One is a randomized algorithm whose query complexity is $n+O(1)$ with high probability and the other is an average-case algorithm also having a query complexity of $n+O(1)$ on average. The $n$ lower bound is still true for both cases, and hence they are optimal up to an additive constant.

研究动机与目标

  • 解决从子串查询进行字符串重构时查询复杂度中长期存在的 O(log n) 间隙。
  • 设计一种随机化算法,实现以高概率进行 n + O(1) 次查询的二进制字符串重构。
  • 设计一种平均情况下的确定性算法,实现 n + O(1) 的查询复杂度。
  • 通过匹配信息论下界 n,证明两种算法在加法常数范围内的最优性。
  • 利用随机二进制字符串中子串频率的概率特性,以减少查询开销。

提出的方法

  • 采用随机策略,采样长度约为 log n 的子串,以高概率识别出子串与非子串。
  • 采用“双种子”技术:首先识别最长的连续 0 段(第一个种子),然后寻找更长的第二个种子,以减少查询开销。
  • 应用“TwoExtension”过程,通过概率采样和自适应查询选择,向两个方向扩展子串。
  • 引入基于切尔诺夫不等式的失败概率有界记录系统,以确保所有算法阶段的高概率正确性。
  • 对 Skiena-Sundaram (SkSu) 算法进行改进,用随机种子查找机制替代对最长 0 段的二分查找。
  • 采用混合方法:当随机化阶段失败时,切换到确定性异常路径,以确保有界误差下的正确性。

实验结果

研究问题

  • RQ1能否消除字符串重构查询复杂度中 O(log n) 的加法项?
  • RQ2是否存在一种随机化算法,能在高概率下实现 n + O(1) 次查询用于二进制字符串重构?
  • RQ3能否设计一种确定性平均情况算法,实现 n + O(1) 的查询复杂度?
  • RQ4如何利用随机二进制字符串中子串频率的概率特性来减少查询次数?
  • RQ5能否使算法对非随机字符串具有鲁棒性,同时保持接近最优的查询复杂度?

主要发现

  • 随机化算法以最多 δ 的失败概率实现 n + O(1) 的查询复杂度,具体为 n + 213 logₑ(3/δ) + 1 次查询。
  • 平均情况下的确定性算法平均最多消耗 n + 6 次查询,实现 n + O(1) 的性能。
  • 两种算法在加法常数范围内均为最优,与信息论下界 n 次查询相匹配。
  • 随机化算法的失败概率被控制在 δ 以内,常数项 213 logₑ(3/δ) 依赖于所需的置信水平。
  • 通过使用双种子和概率采样,算法相比 SkSu 方法最多可节省 log n 次查询。
  • 记录系统与失败概率分析依赖于切尔诺夫不等式,以确保所有算法阶段的高概率正确性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。