Skip to main content
QUICK REVIEW

[論文レビュー] Streaming $k$-edit approximate pattern matching via string decomposition

Sudatta Bhattacharya, Michal Koucký|arXiv (Cornell University)|Jan 1, 2023
Algorithms and Data Compression被引用数 1
ひとこと要約

本稿では、k編集近似パターンマッチングのための確率的ストリーミングアルゴリズムを提示する。このアルゴリズムは、Õ(k²)の空間と、1文字あたりÕ(k²)の時間計算量を実現し、従来のÕ(k⁵)の空間とÕ(k⁸)の時間計算量と比べて顕著な改善を示す。本手法は、編集距離をハミング距離に変換する局所的に整合する文字列分解を活用し、分解された文法に対してCKP k不一致アルゴリズムをブラックボックスとして適用する。

ABSTRACT

In this paper we give an algorithm for streaming $k$-edit approximate pattern matching which uses space $\widetilde{O}(k^2)$ and time $\widetilde{O}(k^2)$ per arriving symbol. This improves substantially on the recent algorithm of Kociumaka, Porat and Starikovskaya (2022) which uses space $\widetilde{O}(k^5)$ and time $\widetilde{O}(k^8)$ per arriving symbol. In the $k$-edit approximate pattern matching problem we get a pattern $P$ and text $T$ and we want to identify all substrings of the text $T$ that are at edit distance at most $k$ from $P$. In the streaming version of this problem both the pattern and the text arrive in a streaming fashion symbol by symbol and after each symbol of the text we need to report whether there is a current suffix of the text with edit distance at most $k$ from $P$. We measure the total space needed by the algorithm and time needed per arriving symbol.

研究の動機と目的

  • k編集近似パターンマッチングのための、空間的・時間的効率の高いストリーミングアルゴリズムの設計。
  • 特にKociumakaら(2022年)のÕ(k⁵)の空間とÕ(k⁸)の時間計算量を示す従来のストリーミング手法の高い計算コストを克服すること。
  • 文字列分解を用いて編集距離の計算をハミング距離に還元することで、近似的に最適な性能を達成すること。
  • パターンとテキストが1文字ずつ到着するストリーミング環境において、効率的かつリアルタイムのパターンマッチングを可能にすること。

提案手法

  • BhattacharyaとKoucký(2023年)の局所的に整合する文字列分解を用い、編集距離を保持する文法として文字列を表現する。
  • 分解された文法に対して、CKP k不一致パターンマッチングアルゴリズムをブラックボックスとして適用し、近似マッチを検出する。
  • 現在のテキストの接尾語とパターンとの整合性を追跡するために、アクティブな、コミット済みの、およびパターン固有の文法を維持する。
  • ローリング文法の更新を用いて、各入力テキスト文字をÕ(k)の時間で段階的に処理する。
  • 対応する文法ペア間の編集距離の和を計算することで、テキスト接尾語とパターンとの間の編集距離を求める。
  • 高確率で正しく動作することを保証するために、ランダムな整合性サンプリングを採用する。

実験結果

リサーチクエスチョン

  • RQ1ストリーミングモデルにおいて、k編集近似パターンマッチングをÕ(k²)の空間と1文字あたりÕ(k²)の時間計算量で解くことは可能か?
  • RQ2ストリーミング文脈において、文字列分解技術を用いて編集距離問題をハミング距離問題に還元することは可能か?
  • RQ3空間計算量を低く保ちつつ、1文字あたりの時間計算量を2乗未塔に抑えることは可能か?
  • RQ4ランダムな整合性のサンプリングを用いることで、誤差確率を小さな多項式に抑えられるか?

主な発見

  • アルゴリズムは、1文字あたりÕ(k²)の空間と時間計算量を達成し、従来のÕ(k⁵)の空間とÕ(k⁸)の時間計算量と比べて顕著な改善を示す。
  • 文字列分解の活用により、編集距離の計算が文法上のハミング距離問題に変換され、効率的なk不一致アルゴリズムの再利用が可能になる。
  • 失敗確率がO(log N / N)以下であることを保証し、任意に小さな多項式に抑えられる高確率で正しく動作する。
  • 効率的な文法管理と、高々k個の不一致文法ペアにおける編集距離計算のおかげで、1文字あたりの時間計算量はÕ(k²)で抑えられる。
  • 空間計算量は、CKP k不一致アルゴリズムと文法の保存に起因し、いずれも任意の時点でÕ(k²)である。
  • アルゴリズムはストリーミング制約に強く、文字を段階的に処理でき、現在のテキスト接尾語に対する編集距離をリアルタイムで報告できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。