Skip to main content
QUICK REVIEW

[논문 리뷰] Faster Language Edit Distance, Connection to All-pairs Shortest Paths and Related Problems.

Barna Saha|arXiv (Cornell University)|2014. 11. 26.
Algorithms and Data Compression참고 문헌 44인용 수 4
한 줄 요약

이 논문은 언어 편집 거리 문제를 진정으로 삼차 이하 시간 내에서 계산할 수 있는 최초의 알고리즘을 제안한다. 전부-쌍 최단 경로(all-pairs shortest paths) 문제와의 연결을 통해 (1+ε)-근사율을 가지며 Õ(n^ω poly(ε))의 실행 시간을 달성한다. 또한 입력 문자열의 모든 부분문자열에 대한 편집 거리를 추정함으로써 국소 정렬(local alignment)을 지원한다.

ABSTRACT

Given a context free language L(G) over alphabet Σ and a string s ∈ Σ∗, the language edit distance problem seeks the minimum number of edits (insertions, deletions and substitutions) required to convert s into a valid member of L(G). The well-known dynamic programming algorithm solves this problem in O(n3) time (ignoring grammar size) where n is the string length [Aho, Peterson 1972, Myers 1985]. Despite its numerous applications in data management, machine learning, compiler optimization, com-putational biology, computer vision and linguistics, there is no algorithm known till date that computes or approximates language edit distance problem in true sub-cubic time. In this paper we give the first such algorithm that computes language edit distance almost optimally. For any arbitrary > 0, our algorithm runs in Õ ( n ω poly() ) time and returns an estimate within a mul-tiplicative approximation factor of (1 + ) with high probability, where ω is the exponent of ordinary matrix multiplication of n dimensional square matrices. It also computes the edit script. We further solve the local alignment problem; for all substrings of s, we can estimate their language edit distance

연구 동기 및 목표

  • 진정으로 삼차 이하 시간 내에 언어 편집 거리를 계산하는 데 오랫동안 열려 있던 열린 문제를 해결하기 위해.
  • 근사율 (1+ε) 범위 내에서 언어 편집 거리의 거의 최적의 근사치를 제공하기 위해.
  • 해결책을 국소 정렬으로 확장하여 입력 문자열의 모든 부분문자열에 대한 편집 거리를 추정하기 위해.
  • 언어 편집 거리와 전부-쌍 최단 경로 문제 간의 연결 고리를 활용하여 효율성을 향상시키기 위해.

제안 방법

  • 새로운 그래프 구축을 통해 언어 편집 거리 문제를 전부-쌍 최단 경로(APSP) 문제의 변종으로 환원한다.
  • 높은 확률로 (1+ε)-근사율을 달성하기 위해 랜덤화된 근사 프레임워크를 사용한다.
  • 행렬 곱셈의 지수 ω를 핵심 매개변수로 활용하여 Õ(n^ω poly(ε))의 시간 복잡도를 달성한다.
  • 문법과 문자열의 그래프 표현을 기반으로 한 동적 프로그래밍 구조를 구성하여 편집 거리를 효율적으로 계산한다.
  • 전부-쌍 최단 경로(APSP) 알고리즘과 문자열 알고리즘의 기법을 통합하여 전역 및 국소 정렬 계산을 지원한다.
  • 구축된 그래프와 동적 프로그래밍 테이블을 역행하여 실제 편집 스크립트를 계산한다.

실험 결과

연구 질문

  • RQ1언어 편집 거리는 진정으로 삼차 이하 시간 내에 계산될 수 있는가?
  • RQ2언어 편집 거리의 (1+ε)-근사율을 거의 선형 또는 거의 삼차 시간 내에 달성할 수 있는가?
  • RQ3언어 편집 거리 문제를 더 빠른 계산을 가능하게 하기 위해 전부-쌍 최단 경로 문제와 어떻게 연결할 수 있는가?
  • RQ4이 알고리즘이 국소 정렬을 지원할 수 있는가, 즉 입력 문자열의 모든 부분문자열에 대한 편집 거리를 추정할 수 있는가?

주요 결과

  • 제안된 알고리즘은 Õ(n^ω poly(ε)) 시간 내에 실행되며, 높은 확률로 (1+ε)-근사율을 달성한다.
  • 이 알고리즘은 진정으로 삼차 이하 시간 내에 언어 편집 거리를 계산할 수 있는 최초의 알고리즘으로, O(n^3) 장벽을 돌파한다.
  • 알고리즘은 전역 및 국소 정렬을 모두 지원하여 입력 문자열의 모든 부분문자열에 대한 편집 거리를 추정한다.
  • 언어 편집 거리 문제를 전부-쌍 최단 경로 문제로 성공적으로 환원하여 더 빠른 계산을 가능하게 한다.
  • 알고리즘은 거리 값 뿐만 아니라 실제 편집 스크립트까지 계산하므로, 변환 시퀀스가 필요한 응용 분야에서 매우 중요하다.
  • 결과적으로 언어 편집 거리와 행렬 곱셈 복잡도 간의 강력한 연결 고리를 확립하며, ω가 핵심 매개변수임을 부각시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.