QUICK REVIEW

[論文レビュー] Optimal LZ-End Parsing Is Hard

Hideo Bannai, Mitsuru Funakoshi|arXiv (Cornell University)|Jan 1, 2023

Natural Language Processing Techniques被引用数 1

ひとこと要約

この論文は、LZ-End制約下での最小フレーズ数パースィングとして定義される最適LZ-Endパースィングを計算する問題が、頂点被覆問題からの還元を用いてNP完全であることを証明する。さらに、正確な計算のためのMAX-SAT定式化を提示し、グリーディLZ-Endパースィングと最適パースィングとの間の近似比の下限が2であることを確立する。これは特定のバイナリ文字列において、近似比が漸近的に2に近づくことを示している。

ABSTRACT

LZ-End is a variant of the well-known Lempel-Ziv parsing family such that each phrase of the parsing has a previous occurrence, with the additional constraint that the previous occurrence must end at the end of a previous phrase. LZ-End was initially proposed as a greedy parsing, where each phrase is determined greedily from left to right, as the longest factor that satisfies the above constraint~[Kreft & Navarro, 2010]. In this work, we consider an optimal LZ-End parsing that has the minimum number of phrases in such parsings. We show that a decision version of computing the optimal LZ-End parsing is NP-complete by showing a reduction from the vertex cover problem. Moreover, we give a MAX-SAT formulation for the optimal LZ-End parsing adapting an approach for computing various NP-hard repetitiveness measures recently presented by [Bannai et al., 2022]. We also consider the approximation ratio of the size of greedy LZ-End parsing to the size of the optimal LZ-End parsing, and give a lower bound of the ratio which asymptotically approaches $2$.

研究の動機と目的

LZ-End制約下でフレーズ数が最小となるパースィング、すなわち最適LZ-Endパースィングを求める計算複雑性を特定すること。
MAX-SAT定式化を用いた最適LZ-Endパースィングの正確な計算手法の開発。
グリーディLZ-Endパースィングと最適パースィングとの間の近似比、特に最悪ケース性能の分析。

提案手法

最適LZ-Endパースィングの決定問題への還元を用いて、NP完全性を証明する。
有効なLZ-Endパースィングの制約を符号化するため、O(n²)変数およびO(n²)節を有するMAX-SATインスタンスを構築する。
フレーズ選択および参照ルールを符号化するために、ソフト節と基数制約を用いる。
各フレーズが、新しい記号を開始するか、フレーズ境界で終わる接尾語を参照するように制約を課す。
基数制約を線形サイズで符号化することで、CNFのサイズを管理可能に保つ。
特定のバイナリ文字列の族を分析し、グリーディパースィングと最適パースィングのサイズ比の下限を導出する。

実験結果

リサーチクエスチョン

RQ1最適LZ-Endパースィングを計算する問題はNP完全か？
RQ2MAX-SAT定式化を用いて最適LZ-Endパースィングを正確に計算できるか？
RQ3グリーディLZ-Endパースィングと最適パースィングとの間の最悪ケース近似比は何か？
RQ4グリーディパースィングのサイズと最適パースィングのサイズとの比は、漸近的に2を超えることができるか？

主な発見

最適LZ-Endパースィングの決定問題は、頂点被覆問題からの還元を用いてNP完全であることが証明された。
O(n²)変数およびO(n²)節を有するMAX-SAT定式化により、最適LZ-Endパースィングの正確な計算が可能である。
バイナリ文字列の族に対して、グリーディLZ-Endパースィングのサイズ（ze）と最適パースィングのサイズ（zend）との比は、漸近的に2に近づく。
ze/zend の比に対する下限2は、すべての文字列に対して ze ≤ 2zno が成り立つと仮定すれば、タイトである。
構成により、グリーディパースィングが最適から任意に遠ざかることが示され、その差が2の要因に近づく。
この結果は、最悪ケースにおいてグリーディLZ-Endパースィングが2より良い定数倍近似を保証できないことを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。