QUICK REVIEW

[논문 리뷰] Optimal LZ-End Parsing Is Hard

Hideo Bannai, Mitsuru Funakoshi|arXiv (Cornell University)|2023. 01. 01.

Natural Language Processing Techniques인용 수 1

한 줄 요약

이 논문은 정점 커버 문제로부터의 환원을 통해, LZ-End 제약 조건 하에서 문장 수가 최소가 되는 최적의 LZ-End 파싱을 계산하는 것이 NP-완전임을 증명한다. 또한 정확한 계산을 위한 MAX-SAT 포지션을 제시하고, 탐욕적 LZ-End 파싱과 최적 파싱 간의 근사 비율에 대해 2의 하한을 설정하여, 특정 이진 문자열에 대해 이 비율이 점점 2에 수렴함을 보인다.

ABSTRACT

LZ-End is a variant of the well-known Lempel-Ziv parsing family such that each phrase of the parsing has a previous occurrence, with the additional constraint that the previous occurrence must end at the end of a previous phrase. LZ-End was initially proposed as a greedy parsing, where each phrase is determined greedily from left to right, as the longest factor that satisfies the above constraint~[Kreft & Navarro, 2010]. In this work, we consider an optimal LZ-End parsing that has the minimum number of phrases in such parsings. We show that a decision version of computing the optimal LZ-End parsing is NP-complete by showing a reduction from the vertex cover problem. Moreover, we give a MAX-SAT formulation for the optimal LZ-End parsing adapting an approach for computing various NP-hard repetitiveness measures recently presented by [Bannai et al., 2022]. We also consider the approximation ratio of the size of greedy LZ-End parsing to the size of the optimal LZ-End parsing, and give a lower bound of the ratio which asymptotically approaches $2$.

연구 동기 및 목표

LZ-End 제약 조건 하에서 문장 수가 최소가 되는 최적의 LZ-End 파싱을 찾는 계산 복잡도를 규명하는 것.
MAX-SAT 포지션을 이용한 최적의 LZ-End 파싱에 대한 정확한 계산 방법을 개발하는 것.
특히 최악의 성능을 고려할 때, 탐욕적 LZ-End 파싱과 최적 파싱 간의 근사 비율을 분석하는 것.

제안 방법

최적의 LZ-End 파싱의 决定 문제를 정점 커버 문제로부터 환원하여 NP-완전성을 증명한다.
유효한 LZ-End 파싱의 제약 조건을 인코딩하기 위해 O(n²)개의 변수와 O(n²)개의 절을 가진 MAX-SAT 인스턴스를 구축한다.
문장 선택 및 참조 규칙을 인코딩하기 위해 소프트 절과 기수 제약 조건을 사용한다.
각 문장이 새로운 기호를 시작하거나 문장 경계에서 끝나는 접두어를 참조하도록 제약 조건을 부과한다.
기수 제약 조건을 선형 크기로 인코딩하여 CNF 크기를 관리 가능하게 유지한다.
비트 문자열의 일군의 가족을 분석하여 탐욕적 파싱 크기와 최적 파싱 크기 간의 비율에 대한 하한을 유도한다.

실험 결과

연구 질문

RQ1최적의 LZ-End 파싱을 계산하는 문제는 NP-완전한가?
RQ2MAX-SAT 포지션을 사용하여 최적의 LZ-End 파싱을 정확히 계산할 수 있는가?
RQ3탐욕적 LZ-End 파싱과 최적 파싱 간의 최악의 근사 비율은 무엇인가?
RQ4탐욕적 파싱 크기와 최적 파싱 크기 간의 비율이 점점 2를 초과할 수 있는가?

주요 결과

최적의 LZ-End 파싱을 계산하는 결정 문제는 정점 커버 문제로부터의 환원을 통해 NP-완전함을 증명하였다.
O(n²)개의 변수와 O(n²)개의 절을 가진 MAX-SAT 포지션은 최적의 LZ-End 파싱을 정확히 계산하는 데 가능하게 한다.
이진 문자열의 일군의 가정에서, 탐욕적 LZ-End 파싱 크기(ze)와 최적 파싱 크기(zend) 간의 비율은 점점 2에 수렴한다.
ze/zend 비율에 대한 2의 하한은, 모든 문자열에 대해 ze ≤ 2zno가 성립한다는 추측 하에 날카로운 하한이 된다.
구성에 따르면 탐욕적 파싱은 최적에서 임의로 멀어질 수 있으며, 이 격차는 점점 2의 요소에 수렴한다.
결과적으로 탐욕적 LZ-End 파싱은 최악의 경우 2보다 나은 상수 요소 근사가 보장되지 않음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.