Skip to main content
QUICK REVIEW

[논문 리뷰] An Algorithmic Bridge Between Hamming and Levenshtein Distances

Elazar Goldenberg, Tomasz Kociumaka|arXiv (Cornell University)|2022. 11. 22.
Algorithms and Data Compression인용 수 2
한 줄 요약

이 논문은 치환 비용이 1/a이고 삽입/삭제 비용이 1인 매개변수화된 편집 거리인 EDa를 소개한다. 이는 a→∞일 때 해밍 거리와 a=1일 때 표준 편집 거리를 연결한다. EDa에 대해 Õ(n/a + ak³) 시간에 동작하는 랜덤화된 (1+ϵ)-근사 알고리즘을 제안하며, 이는 a가 크고 k가 작을 경우 n에 대해 선형 시간 이하로 작동한다. 또한 유사한 선형 시간 성능을 유지하는 (1,1+ϵ)-이중기준 근사 알고리즘을 (kI,kS)-정렬 문제로 확장하여, 실제 응용에서 치환이 많고 삽입/삭제가 적은 경우 표준 단위비용 편집 거리보다 상당한 속도 향상을 제공한다.

ABSTRACT

The edit distance between strings classically assigns unit cost to every character insertion, deletion, and substitution, whereas the Hamming distance only allows substitutions. In many real-life scenarios, insertions and deletions (abbreviated indels) appear frequently but significantly less so than substitutions. To model this, we consider substitutions being cheaper than indels, with cost $1/a$ for a parameter $a\ge 1$. This basic variant, denoted $ED_a$, bridges classical edit distance ($a=1$) with Hamming distance ($a o\infty$), leading to interesting algorithmic challenges: Does the time complexity of computing $ED_a$ interpolate between that of Hamming distance (linear time) and edit distance (quadratic time)? What about approximating $ED_a$? We first present a simple deterministic exact algorithm for $ED_a$ and further prove that it is near-optimal assuming the Orthogonal Vectors Conjecture. Our main result is a randomized algorithm computing a $(1+ε)$-approximation of $ED_a(X,Y)$, given strings $X,Y$ of total length $n$ and a bound $k\ge ED_a(X,Y)$. For simplicity, let us focus on $k\ge 1$ and a constant $ε> 0$; then, our algorithm takes $ ilde{O}(n/a + ak^3)$ time. Unless $a= ilde{O}(1)$ and for small enough $k$, this running time is sublinear in $n$. We also consider a very natural version that asks to find a $(k_I, k_S)$-alignment -- an alignment with at most $k_I$ indels and $k_S$ substitutions. In this setting, we give an exact algorithm and, more importantly, an $ ilde{O}(nk_I/k_S + k_S\cdot k_I^3)$-time $(1,1+ε)$-bicriteria approximation algorithm. The latter solution is based on the techniques we develop for $ED_a$ for $a=Θ(k_S / k_I)$. These bounds are in stark contrast to unit-cost edit distance, where state-of-the-art algorithms are far from achieving $(1+ε)$-approximation in sublinear time, even for a favorable choice of $k$.

연구 동기 및 목표

  • 치환 비용이 삽입/삭제 비용보다 낮은 비용 브리징 모델을 도입함으로써 해밍 거리(선형 시간)와 편집 거리(이차 시간) 사이의 알고리즘 격차를 해소한다.
  • 비용 매개변수 a가 증가함에 따라 EDa 계산의 시간 복잡도가 선형 시간(해밍 거리)과 이차 시간(편집 거리) 사이를 부드럽게 보간하는지 조사한다.
  • 특히 거리가 작고 a가 클 때 선형 시간 이하로 동작하는, EDa와 (kI,kS)-정렬 문제에 대한 효율적인 근사 알고리즘을 설계한다.
  • 치환이 지배하는 실제 응용 분야에서 히وري스틱 문자열 비교 방법의 효율성에 대한 이론적 근거를 제공한다.

제안 방법

  • a ≥ 1 인 매개변수 a에 따라 치환 비용이 1/a이고 삽입/삭제 비용이 1인 편집 거리의 변종인 EDa를 도입한다.
  • EDa에 대한 결정론적 정확 알고리즘을 개발하고, 직교 벡터 추측에 기반해 그 near-최적성 증명을 한다.
  • LCE(가장 긴 공통 접두사) 쿼리에 오차 내성 기반으로 구현된 랜덤화된 (1+ϵ)-근사 알고리즘을 제안하며, 이는 Õ(n/a + ak³) 시간에 동작한다.
  • (kI,kS)-정렬 문제에 이 알고리즘의 변형을 적용하여, a = Θ(kS/kI)로 조정함으로써 Õ(nkI/kS + kSk³I) 시간에 (1,1+ϵ)-이중기준 근사 알고리즘을 달성한다.
  • 치환 횟수에 대한 샘플링과 LCE 기반 검증을 통한 계층적 동적 프로그래밍 접근법을 사용하여 쿼리 오버헤드를 줄인다.
  • 오차가 제한된 LCEd,ϵ 쿼리를 사용하여 공통 부분문자열을 추정하고, 정확도를 통제하면서 선형 시간 이하 근사 알고리즘을 가능하게 한다.

실험 결과

연구 질문

  • RQ1비용 매개변수 a가 1에서 ∞로 증가함에 따라 EDa 계산의 시간 복잡도가 해밍 거리(선형 시간)와 편집 거리(이차 시간) 사이를 부드럽게 보간하는가?
  • RQ2a가 크고 편집 거리가 작을 경우, EDa에 대한 (1+ϵ)-근사 알고리즘이 선형 시간 이하로 계산 가능한가?
  • RQ3삽입/삭제와 치환이 각각 kI, kS 이하로 제한된 (kI,kS)-정렬 문제에 대해 (1,1+ϵ)-이중기준 근사 알고리즘이 선형 시간 이하로 동작 가능한가?
  • RQ4희박한 삽입/삭제와 풍부한 치환을 보이는 실제 환경에서, 제안된 알고리즘의 성능은 단위비용 편집 거리에 대한 기존 선형 시간 이하 알고리즘과 비교해 어떻게 되는가?
  • RQ5직교 벡터 추측 하에, 가중 편집 거리의 선형 시간 이하 근사 알고리즘의 이론적 한계는 무엇인가?

주요 결과

  • 제안된 EDa에 대한 (1+ϵ)-근사 알고리즘은 Õ(n/a + ak³) 시간에 동작하며, a ≫ 1 이고 k가 작을 경우 n에 대해 선형 시간 이하로 작동한다.
  • (kI,kS)-정렬 문제에 대해 알고리즘은 Õ(nkI/kS + kSk³I) 시간에 (1,1+ϵ)-이중기준 근사 알고리즘을 달성하며, kI ≪ kS일 경우 다시 한번 선형 시간 이하로 작동한다.
  • 이 알고리즘은 단위비용 편집 거리에 대한 최신 선형 시간 이하 알고리즘보다 상당히 빠르며, 이는 다항식 또는 다중로그 시간 근사 비율을 달성하기만 한다.
  • 알고리즘은 높은 확률로 정확하며, LCEd,ϵ 쿼리를 사용해 오차가 제한된 상태에서 정렬 후보를 효율적으로 검증한다.
  • 직교 벡터 추측 하에 알고리즘의 실행 시간은 near-최적이며, 이보다 더 향상시키기 위해서는 널리 믿어지는 복잡도 가정을 깨뜨려야 한다는 것을 시사한다.
  • 이 방법은 치환이 지배하는 분야(예: 계산 생물학)에서 문자열 비교 히وري스틱의 경험적 빠름을 이론적으로 설명한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.