[論文レビュー] Small-Space Algorithms for the Online Language Distance Problem for Palindromes and Squares
本稿では、閾値kの低距離領域において、入力文字列の各接頭語から回文および平方語彙への最小ハミング距離と編集距離を計算する、空間効率的なストリーミングおよび読み取り専用オンラインアルゴリズムを提示する。ランダム化ストリーミングアルゴリズムは、文字あたりO(k polylog n)の空間と時間で動作し、ハミング距離に対しては確定的読み取り専用アルゴリズムがO(k polylog n)の空間、編集距離に対してはO(k⁴ polylog n)の空間を用いる。両モデルとも、poly(k, log n)の複雑度を達成する。
We study the online variant of the language distance problem for two classical formal languages, the language of palindromes and the language of squares, and for the two most fundamental distances, the Hamming distance and the edit (Levenshtein) distance. In this problem, defined for a fixed formal language $L$, we are given a string $T$ of length $n$, and the task is to compute the minimal distance to $L$ from every prefix of $T$. We focus on the low-distance regime, where one must compute only the distances smaller than a given threshold $k$. In this work, our contribution is twofold: - First, we show streaming algorithms, which access the input string $T$ only through a single left-to-right scan. Both for palindromes and squares, our algorithms use $O(k \cdot\mathrm{poly}~\log n)$ space and time per character in the Hamming-distance case and $O(k^2 \cdot\mathrm{poly}~\log n)$ space and time per character in the edit-distance case. These algorithms are randomised by necessity, and they err with probability inverse-polynomial in $n$. - Second, we show deterministic read-only online algorithms, which are also provided with read-only random access to the already processed characters of $T$. Both for palindromes and squares, our algorithms use $O(k \cdot\mathrm{poly}~\log n)$ space and time per character in the Hamming-distance case and $O(k^4 \cdot\mathrm{poly}~\log n)$ space and amortised time per character in the edit-distance case.
研究の動機と目的
- 形式的言語としての回文および平方語彙に対する、低距離制約下でのオンライン言語距離問題に取り組む。
- 入力文字列を1回の左から右へのスキャン(ストリーミング)または過去の文字への読み取り専用ランダムアクセスで処理できる空間効率的なアルゴリズムを設計する。
- ハミング距離および編集距離の両変種において、poly(k, log n)の時間および空間複雑度を達成する。特に、閾値kの領域に焦点を当てる。
- テキストにおけるkミスマッチおよびk編集パターン出現を、初めてpoly(k, log n)空間の読み取り専用アルゴリズムとして開発する。
提案手法
- 近似パターンマッチングの道具を用いて、ハミング距離のためのスケッチを用いたランダム化ストリーミング技術を活用する。
- ローカルに一貫性のある文字列分解と編集距離スケッチを適用し、編集距離計算をハミング距離問題に還元する。
- ミスマッチ情報(MI)の追跡を用いて、kミスマッチおよびkエラーのパターンマッチングを実施し、潜在的な回文または平方部分文字列を検出する。
- 自己類似性や周期性といった、回文および平方語の構造的性質を活用して、効率的な検出と距離計算を導く。
- 各文字をO(k polylog n)時間で処理する。これは、O(k)のミスマッチ情報集合を維持し、三角不等式の境界を適用することで達成される。
- 読み取り専用モデルでは、各レベルあたりO(k)の空間を有する永続的データ構造を維持し、複数レベルの文字列分解にわたる階層的パターンマッチングを実施する。
実験結果
リサーチクエスチョン
- RQ1ハミング距離および編集距離の両方において、文字あたりpoly(k, log n)の空間と時間で動作する、ランダム化ストリーミングアルゴリズムを設計できるか?
- RQ2過去の入力文字列への読み取り専用アクセスを持つ確定的オンラインアルゴリズムで、達成可能な最小の空間および時間複雑度は何か?
- RQ3リアルタイムで、kミスマッチまたはkエラーのパターン出現(それが回文または平方を形成する可能性があるもの)を効率的に検出する方法は何か?
- RQ4回文および平方語の構造的性質を活用することで、低距離領域における距離計算の複雑度を低減できるか?
- RQ5空間、時間、正しさの保証という観点から、ランダム化ストリーミングモデルと確定的読み取り専用モデルの間にはどのようなトレードオフがあるか?
主な発見
- ランダム化ストリーミングアルゴリズムは、ハミング距離に対してO(k polylog n)の空間と時間、編集距離に対してはO(k² polylog n)の空間と時間で動作し、逆多項式の誤差確率を有する。
- 確定的読み取り専用アルゴリズムは、ハミング距離に対してO(k polylog n)の空間と時間、編集距離に対してはO(k⁴ polylog n)の空間と文字あたりの均等化時間で動作する。
- kミスマッチおよびk編集パターン出現のための、初めてのpoly(k, log n)空間読み取り専用アルゴリズムが、副産物として開発された。
- k-LHD-PALおよびk-LHD-SQに対して、ストリーミングアルゴリズムは˜O(k)時間およびO(k log n)空間を用い、従来の˜O(k²)時間の境界を改善した。
- 読み取り専用アルゴリズムは、k-LHD-PAL/SQに対して文字あたりO(k log n)時間および空間で動作し、類似問題における既知の最良境界と一致する。
- 編集距離に対しては、読み取り専用アルゴリズムが文字あたり˜O(k⁴)時間および空間を達成し、均等化効率を有する。これは、確定的オンライン計算において顕著な前進を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。