Skip to main content
QUICK REVIEW

[논문 리뷰] Dynamic Time Warping in Strongly Subquadratic Time: Algorithms for the Low-Distance Regime and Approximate Evaluation

William Kuszmaul|arXiv (Cornell University)|2019. 01. 01.
Time Series Analysis and Forecasting참고 문헌 42인용 수 1
한 줄 요약

이 논문은 거리가 작을 경우에 대해 동적 시간 왜곡(DTW)에 대한 처음으로 강한(strongly) 부분제곱 알고리즘을 제시한다. 임의의 거리 공간에서 최소 비영 거리가 1인 문자열에 대해 DTW를 O(n · dtw(x, y)) 시간에 계산한다. 또한 트리 거리 공간에서 O(n²⁻ᵝ)-시간 O(nᵝ) 근사율을 갖는 근사 알고리즘을 제안하고, 편집 거리에서의 감소를 통해 DTW와 LCS에 대한 새로운 조건부 하한을 확립한다.

ABSTRACT

Dynamic time warping distance (DTW) is a widely used distance measure between time series, with applications in areas such as speech recognition and bioinformatics. The best known algorithms for computing DTW run in near quadratic time, and conditional lower bounds prohibit the existence of significantly faster algorithms. The lower bounds do not prevent a faster algorithm for the important special case in which the DTW is small, however. For an arbitrary metric space Sigma with distances normalized so that the smallest non-zero distance is one, we present an algorithm which computes dtw(x, y) for two strings x and y over Sigma in time O(n * dtw(x, y)). When dtw(x, y) is small, this represents a significant speedup over the standard quadratic-time algorithm. Using our low-distance regime algorithm as a building block, we also present an approximation algorithm which computes dtw(x, y) within a factor of O(n^epsilon) in time O~(n^{2 - epsilon}) for 0 < epsilon < 1. The algorithm allows for the strings x and y to be taken over an arbitrary well-separated tree metric with logarithmic depth and at most exponential aspect ratio. Notably, any polynomial-size metric space can be efficiently embedded into such a tree metric with logarithmic expected distortion. Extending our techniques further, we also obtain the first approximation algorithm for edit distance to work with characters taken from an arbitrary metric space, providing an n^epsilon-approximation in time O~(n^{2 - epsilon}), with high probability. Finally, we turn our attention to the relationship between edit distance and dynamic time warping distance. We prove a reduction from computing edit distance over an arbitrary metric space to computing DTW over the same metric space, except with an added null character (whose distance to a letter l is defined to be the edit-distance insertion cost of l). Applying our reduction to a conditional lower bound of Bringmann and Künnemann pertaining to edit distance over {0, 1}, we obtain a conditional lower bound for computing DTW over a three letter alphabet (with distances of zero and one). This improves on a previous result of Abboud, Backurs, and Williams, who gave a conditional lower bound for DTW over an alphabet of size five. With a similar approach, we also prove a reduction from computing edit distance (over generalized Hamming Space) to computing longest-common-subsequence length (LCS) over an alphabet with an added null character. Surprisingly, this means that one can recover conditional lower bounds for LCS directly from those for edit distance, which was not previously thought to be the case.

연구 동기 및 목표

  • 진짜 거리가 작을 경우 일반적인 경우의 거의 제곱 하한을 뛰어넘어 DTW에 대한 더 빠른 알고리즘을 개발하기 위해.
  • 강한 부분제곱 시간 내에서 증명 가능한 근사 보장을 갖는 DTW 근사 알고리즘을 설계하기 위해.
  • 일반적인 거리 공간에서 편집 거리의 근사를 위한 기법을 확장하고, DTW와 LCS에 대한 새로운 조건부 하한을 도출하기 위해.
  • 편집 거리와 LCS를 DTW로의 감소를 통해 null 문자를 갖는 경우로 전환하여 조건부 하한을 이전의 결과들에서 DTW로 이전하기 위해.

제안 방법

  • 한 문자열을 문자로, 다른 문자열을 동일한 문자의 연속(런)으로 간주하는 비대칭 동적 프로그래밍 공식을 새롭게 설계하여, 거리 임계값 K에 대해 부분 문제 수를 O(nK)로 제한한다.
  • 문자열 간 역할 전환을 통한 재귀적 부분 문제 분해를 사용하여 저비용 부분 문제의 수를 제한한다.
  • 편집 거리를 랜덤 스케일링(r ∈ [R, 2R])을 통해 줄이고, 마르코프 부등식을 통해 확률적 보장을 확보한다.
  • 스케일 매개변수에 대한 이진 탐색과 랜덤 샘플링을 활용한 갭 기반 알고리즘을 구성하여 작은 거리와 큰 거리 간의 구분을 가능하게 한다.
  • 임의의 거리 공간을 깊이가 로그 수준이고 기대 왜곡이 낮은 잘 분리된 트리 거리 공간에 임bedding하여 효율적인 근사를 가능하게 한다.
  • 거리 공간에서의 편집 거리를 null 문자(거리 = 삽입 비용)를 갖는 DTW로 감소시켜, 편집 거리에서의 조건부 하한을 DTW로 이전한다.

실험 결과

연구 질문

  • RQ1진짜 거리가 작을 경우 DTW가 O(n²)보다 더 빠르게 계산될 수 있는가?
  • RQ2일반적인 거리 공간에서 DTW에 대해 강한 부분제곱 시간 근사 알고리즘이 존재하는가?
  • RQ3편집 거리의 조건부 하한이 감소를 통해 DTW로 이전될 수 있는가?
  • RQ4동일한 감소 기법을 사용하여 편집 거리에서 LCS의 하한을 유도할 수 있는가?
  • RQ5랜덤 스케일링이 샘플된 문자열에서 편집 거리에 어떤 영향을 미치는가?

주요 결과

  • 논문은 거리가 작은 경우에 대해 O(n · dtw(x, y))-시간 알고리즘을 제시하여, 작은 dtw 값에 대해 기존의 O(n²)보다 크게 향상됨을 보였다.
  • 깊이가 로그 수준이고 최대 지수적 아웃리어 비율을 갖는 트리 거리 공간에서 O(n²⁻ᵝ)-시간 O(nᵝ)-근사 알고리즘을 개발하였다.
  • 임의의 다항식 크기의 거리 공간은 깊이가 로그 수준인 이러한 트리 거리 공간에 기대 왜곡이 로그 수준으로 유지되도록 임베딩될 수 있으며, 이는 일반적으로 근사 알고리즘을 적용할 수 있음을 보장한다.
  • 논문은 편집 거리가 {0,1}에서의 감소를 통해 세 글자 알파벳에서 DTW에 대한 조건부 하한을 증명하였으며, 이는 이전의 더 큰 알파벳에 비해 향상된 결과이다.
  • 일반화된 하밍 거리 공간에서의 편집 거리를 null 문자를 갖는 LCS로 감소시켜, 편집 거리에서의 조건부 하한을 LCS로 이전할 수 있음을 보였다.
  • 랜덤 샘플링된 문자열 sr(x)와 sr(y) 간의 기대 편집 거리는 원래 편집 거리의 최대 5배 이내이므로, 근사 알고리즘에서 확률적 갭 탐지 기능을 확보할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.