Skip to main content
QUICK REVIEW

[论文解读] Efficient average-case population recovery in the presence of insertions and deletions

Frank Ban, Xi Chen|arXiv (Cornell University)|Jul 12, 2019
Algorithms and Data Compression被引用 13
一句话总结

本文提出了一种在插入和删除情况下高效恢复平均情况下的群体恢复算法,扩展了先前关于迹重建的研究。该算法在支持大小达到 exp(Θ(n^{1/3})) 时实现了多项式时间与样本复杂度,能够在高概率下通过迹恢复任意分布 D,使其与真实分布的总变差距离不超过 ε,而相比之下,最坏情况下的复杂度为双指数级。

ABSTRACT

Several recent works have considered the \emph{trace reconstruction problem}, in which an unknown source string $x\in\{0,1\}^n$ is transmitted through a probabilistic channel which may randomly delete coordinates or insert random bits, resulting in a \emph{trace} of $x$. The goal is to reconstruct the original string~$x$ from independent traces of $x$. While the best algorithms known for worst-case strings use $\exp(O(n^{1/3}))$ traces \cite{DOS17,NazarovPeres17}, highly efficient algorithms are known \cite{PZ17,HPP18} for the \emph{average-case} version, in which $x$ is uniformly random. We consider a generalization of this average-case trace reconstruction problem, which we call \emph{average-case population recovery in the presence of insertions and deletions}. In this problem, there is an unknown distribution $\cal{D}$ over $s$ unknown source strings $x^1,\dots,x^s \in \{0,1\}^n$, and each sample is independently generated by drawing some $x^i$ from $\cal{D}$ and returning an independent trace of $x^i$. Building on \cite{PZ17} and \cite{HPP18}, we give an efficient algorithm for this problem. For any support size $s \leq \smash{\exp(\Theta(n^{1/3}))}$, for a $1-o(1)$ fraction of all $s$-element support sets $\{x^1,\dots,x^s\} \subset \{0,1\}^n$, for every distribution $\cal{D}$ supported on $\{x^1,\dots,x^s\}$, our algorithm efficiently recovers ${\cal D}$ up to total variation distance $\epsilon$ with high probability, given access to independent traces of independent draws from $\cal{D}$. The algorithm runs in time poly$(n,s,1/\epsilon)$ and its sample complexity is poly$(s,1/\epsilon,\exp(\log^{1/3}n)).$ This polynomial dependence on the support size $s$ is in sharp contrast with the \emph{worst-case} version (when $x^1,\dots,x^s$ may be any strings in $\{0,1\}^n$), in which the sample complexity of the most efficient known algorithm \cite{BCFSS19} is doubly exponential in $s$.

研究动机与目标

  • 解决在每个样本均为受随机插入和删除影响的迹时,从 s 个长度为 n 的二进制字符串中恢复未知分布的挑战。
  • 将先前针对多个未知源字符串的更一般群体恢复设置中,扩展高效平均情况迹重建算法。
  • 为字符串上的一类广泛分布实现高效恢复——在时间和样本复杂度方面均高效,即使支持大小 s 随 n 增长。
  • 证明在平均情况下,s 的多项式依赖是可实现的,与最坏情况设置中复杂度在 s 上为双指数级形成鲜明对比。

提出的方法

  • 利用先前平均情况迹重建研究(Perez-Zorin, HPP18)的技术,处理插入和删除情况下的群体恢复设置。
  • 基于迹中子序列模式的分布进行统计估计,以推断原始字符串分布 D。
  • 使用一种多项式时间算法,聚合多个样本的迹统计量,以估计分布 D,使其与真实分布的总变差距离不超过 ε。
  • 应用浓度界限和插入/删除信道下迹生成的组合分析,以确保高概率下的正确性。
  • 设计一种运行时间在 poly(n, s, 1/ε) 内的算法,样本复杂度为 poly(s, 1/ε, exp(log^{1/3} n))。
  • 依赖于随机字符串的迹统计量具有足够集中性且可区分的性质,从而实现高效推断。

实验结果

研究问题

  • RQ1当源字符串为均匀随机且支持大小 s 为 n 的亚指数时,是否可在存在插入和删除的情况下实现高效的群体恢复?
  • RQ2在平均情况假设下,从带有插入和删除的迹中恢复 s 个二进制字符串的分布,所需的最小样本复杂度是多少?
  • RQ3与最坏情况下的群体恢复设置相比,平均情况下的样本和时间复杂度如何随 s 变化?
  • RQ4当源字符串从大小 s ≤ exp(Θ(n^{1/3})) 的随机支持集中抽取时,能否设计出多项式时间算法实现群体恢复,且在字符串选择上以高概率成立?
  • RQ5随机字符串在插入/删除信道下的何种结构特性使得分布恢复成为可能?

主要发现

  • 该算法在 s ≤ exp(Θ(n^{1/3})) 时,以高概率在时间 poly(n, s, 1/ε) 内恢复任意 s 个字符串的分布 D。
  • 样本复杂度为 poly(s, 1/ε, exp(log^{1/3} n)),即在 s 和精度倒数上为多项式,在 n 上为亚指数。
  • 对于 1−o(1) 的 s 元素支持集(由随机字符串构成),该算法以高概率成功。
  • 该算法仅使用独立抽取的字符串的独立迹,即可以高概率实现与真实分布 D 的总变差距离不超过 ε。
  • 与最坏情况设置中样本复杂度在 s 上为双指数级形成鲜明对比,s 的依赖关系为多项式。
  • 该结果在插入/删除信道下,建立了平均情况与最坏情况群体恢复之间的显著分离。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。