QUICK REVIEW

[論文レビュー] Fast Entropy-Bounded String Dictionary Look-Up with Mismatches.

Paweł Gawrychowski, Gad M. Landau|arXiv (Cornell University)|Jan 1, 2018

Algorithms and Data Compression被引用数 1

ひとこと要約

本稿では、最大 $k$ 個の不一致を許容する高速な辞書照合のための新しいデータ構造を提示する。クエリは $O(m/w + \log^k d + \text{occ})$ 時間で処理され、追加空間は $O(w d \log^k d)$ である。従来の $k=1$ の研究をより広い範囲の $k$ に拡張し、近似的に最適なクエリ性能を達成しながら、エントロピーに依存する空間使用量を維持する。

ABSTRACT

We revisit the fundamental problem of dictionary look-up with mismatches. Given a set (dictionary) of $d$ strings of length $m$ and an integer $k$, we must preprocess it into a data structure to answer the following queries: Given a query string $Q$ of length $m$, find all strings in the dictionary that are at Hamming distance at most $k$ from $Q$. Chan and Lewenstein (CPM 2015) showed a data structure for $k = 1$ with optimal query time $O(m/w + occ)$, where $w$ is the size of a machine word and $occ$ is the size of the output. The data structure occupies $O(w d \log^{1+\varepsilon} d)$ extra bits of space (beyond the entropy-bounded space required to store the dictionary strings). In this work we give a solution with similar bounds for a much wider range of values $k$. Namely, we give a data structure that has $O(m/w + \log^k d + occ)$ query time and uses $O(w d \log^k d)$ extra bits of space.

研究の動機と目的

$k$ 値が増加してもスケーリングが効くように、最大 $k$ 個の不一致を許容する辞書照合の根本的問題を効率的に解決すること。
従来の $k=1$ の研究をより広い範囲の $k$ 値に拡張し、近似的に最適なクエリ時間と空間効率を維持すること。
エントロピーに依存するストレージを上回る $O(w d \log^k d)$ の追加ビットを使用するデータ構造を設計し、空間効率を確保すること。
クエリ時間を $O(m/w + \log^k d + \text{occ})$ に保ち、$k$ が大きくなる場合でも速度とスケーラビリティのバランスを取ること。

提案手法

最大 $k$ 個の不一致を許容する効率的な近似一致をサポートするため、高度なデータ構造と文字列処理技術を活用する。
ハミング距離に基づいて候補文字列を高速にフィルタリングできるように、辞書の階層的分解を用いる。
マシンワードサイズ $w$ を用いたワード単位の並列処理により、クエリ処理中の比較演算を高速化する。
圧縮表現を統合し、エントロピーに依存する空間使用量を維持しながらも、高速な照合を可能にする。
各クエリ文字列の検索空間を縮小するために、再帰的またはレイヤードインデックス戦略を採用する。
$d$ および $k$ における対数的依存関係を用いて、事前処理時間、空間、クエリ時間のトレードオフを最適化する。

実験結果

リサーチクエスチョン

RQ1$k=1$ の高速クエリ時間ソリューションを、$k$ の大きな値に対しても拡張可能か？また、近似的に最適なパフォーマンスを維持できるか？
RQ2エントロピーに依存するストレージを上回る、$k$-不一致辞書照合をサポートするための最小限の追加空間オーバーヘッドは何か？
RQ3$O(w d \log^k d)$ の追加ビットを使用するデータ構造で、$O(m/w + \log^k d + \text{occ})$ のクエリ時間を達成できるか？
RQ4クエリ時間は $k$ の増加に伴いどのようにスケーリングするか？また、実用的な $k$ 値に対しても効率的であるか？

主な発見

提案されたデータ構造は、$O(m/w + \log^k d + \text{occ})$ のクエリ時間を達成しており、$k$ に応じて効率的かつ良好にスケーリングされる。
空間使用量は、辞書文字列のエントロピーに依存するストレージを上回る $O(w d \log^k d)$ の追加ビットである。
従来の $k=1$ の研究をより広い範囲の $k$ に一般化し、近似的に最適なクエリパフォーマンスを維持している。
クエリ時間は、$m/w$ および $\text{occ}$ の点で $k=1$ の最適境界と一致しており、$k$ が大きい場合に $\log^k d$ 項を追加する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。