Skip to main content
QUICK REVIEW

[論文レビュー] Efficient average-case population recovery in the presence of insertions and deletions

Frank Ban, Xi Chen|arXiv (Cornell University)|Jul 12, 2019
Algorithms and Data Compression被引用数 13
ひとこと要約

本稿では、挿入および削除を伴う平均ケースのパopulation回復のための効率的なアルゴリズムを提示する。先行研究のトレース再構成の拡張であり、サポートサイズが exp(Θ(n^{1/3})) までにまでに、多項時間および多項サンプル複雑性を達成する。任意の分布 D が、高確率で、トレースを用いて総変動距離 ε 以内に回復可能であり、これは最悪ケース設定における二重指数的複雑性とは対照的である。

ABSTRACT

Several recent works have considered the \emph{trace reconstruction problem}, in which an unknown source string $x\in\{0,1\}^n$ is transmitted through a probabilistic channel which may randomly delete coordinates or insert random bits, resulting in a \emph{trace} of $x$. The goal is to reconstruct the original string~$x$ from independent traces of $x$. While the best algorithms known for worst-case strings use $\exp(O(n^{1/3}))$ traces \cite{DOS17,NazarovPeres17}, highly efficient algorithms are known \cite{PZ17,HPP18} for the \emph{average-case} version, in which $x$ is uniformly random. We consider a generalization of this average-case trace reconstruction problem, which we call \emph{average-case population recovery in the presence of insertions and deletions}. In this problem, there is an unknown distribution $\cal{D}$ over $s$ unknown source strings $x^1,\dots,x^s \in \{0,1\}^n$, and each sample is independently generated by drawing some $x^i$ from $\cal{D}$ and returning an independent trace of $x^i$. Building on \cite{PZ17} and \cite{HPP18}, we give an efficient algorithm for this problem. For any support size $s \leq \smash{\exp(\Theta(n^{1/3}))}$, for a $1-o(1)$ fraction of all $s$-element support sets $\{x^1,\dots,x^s\} \subset \{0,1\}^n$, for every distribution $\cal{D}$ supported on $\{x^1,\dots,x^s\}$, our algorithm efficiently recovers ${\cal D}$ up to total variation distance $\epsilon$ with high probability, given access to independent traces of independent draws from $\cal{D}$. The algorithm runs in time poly$(n,s,1/\epsilon)$ and its sample complexity is poly$(s,1/\epsilon,\exp(\log^{1/3}n)).$ This polynomial dependence on the support size $s$ is in sharp contrast with the \emph{worst-case} version (when $x^1,\dots,x^s$ may be any strings in $\{0,1\}^n$), in which the sample complexity of the most efficient known algorithm \cite{BCFSS19} is doubly exponential in $s$.

研究の動機と目的

  • 各サンプルがランダムな挿入および削除を受けるトレースである場合に、長さ n の s 個のバイナリ文字列の未知の分布を回復する課題に取り組む。
  • 複数の未知のソース文字列を含むより一般的なパopulation回復設定へ、先行の効率的平均ケーストレース再構成アルゴリズムを拡張する。
  • サポートサイズ s が n と共に増加する場合でも、文字列の分布の広いクラスについて、時間およびサンプル複雑性の両面で効率的な回復を達成する。
  • 最悪ケース設定とは異なり、平均ケースにおいて s に対して多項式的依存が達成可能であることを示す。

提案手法

  • Perez-Zorin や HPP18 の先行平均ケーストレース再構成研究の技術を応用し、挿入および削除を伴うパopulation回復設定に対処する。
  • トレースにおける部分列パターンの分布に基づく統計的推定を用いて、元のソース文字列上の分布 D を推定する。
  • 複数のサンプルにわたるトレース統計を集約する多項式時間アルゴリズムを用い、総変動距離 ε 以内で分布 D を推定する。
  • 挿入/削除チャネルにおけるトレース生成の集中限界および組合せ的解析を適用し、高確率で正しく動作することを保証する。
  • 時間は poly(n, s, 1/ε)、サンプル複雑性は poly(s, 1/ε, exp(log^{1/3} n)) で実行される学習アルゴリズムを設計する。
  • ランダム文字列において、トレース統計が十分に集中しており、区別可能であるという事実に依存している。

実験結果

リサーチクエスチョン

  • RQ1ソース文字列が一様にランダムで、サポートサイズ s が n に対してサブ指数的である場合に、挿入および削除の下で効率的なパopulation回復が可能か?
  • RQ2平均ケースの仮定の下で、挿入および削除を伴うトレースから s 個のバイナリ文字列の分布を回復するための最小サンプル複雑性は何か?
  • RQ3平均ケース設定において、s に伴う時間およびサンプル複雑性のスケーリングは、最悪ケース設定と比べてどのように変化するか?
  • RQ4ソース文字列がサイズ s ≤ exp(Θ(n^{1/3})) のランダムなサポート集合から選ばれる場合に、多項式時間アルゴリズムを設計できるか?(文字列の選択に関して高確率で成り立つ。)
  • RQ5挿入/削除チャネル下でのランダム文字列のどのような構造的性質が、効率的な分布回復を可能にするか?

主な発見

  • s ≤ exp(Θ(n^{1/3})) の場合に、時間 poly(n, s, 1/ε) で高確率に任意の分布 D を回復可能である。
  • サンプル複雑性は poly(s, 1/ε, exp(log^{1/3} n)) であり、s および逆精度に対して多項式的で、n に対してサブ指数的である。
  • ランダム文字列の s 要素サポート集合の 1−o(1) の割合に対して、アルゴリズムは高確率で成功する。
  • 独立に抽出された文字列の独立したトレースのみを用いても、真の分布 D からの総変動距離 ε 以内に回復可能である。
  • s に対する依存は多項式的であり、これは最悪ケース設定における s に対して二重指数的複雑性と対照的である。
  • 本結果により、挿入/削除チャネル下での平均ケースと最悪ケースのパopulation回復の間で明確な分離が確立された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。