Skip to main content
QUICK REVIEW

[논문 리뷰] FAMOUS: Fast Approximate string Matching using OptimUm search Schemes.

Kiavash Kianfar, Christopher Pockrandt|arXiv (Cornell University)|2017. 11. 06.
Algorithms and Data Compression인용 수 1
한 줄 요약

이 논문은 이방향 FM-인덱스에서 근사 문자열 매칭을 위한 최적의 검색 체계를 계산하기 위한 새로운 혼합정수계획법(MIP) 기반 방법인 FAMOUS를 소개한다. 이는 히브밍 거리 기반 패턴 검색을 크게 가속화한다. 패턴 분할 및 오차 한계 최적화를 통해 FAMOUS는 표준 백트래킹 대비 최대 35배 빠른 성능을 달성하며, 최고 수준의 어ライン어 성능을 재현하여 동적 프ogramming을 사용하는 전통적 어라이너를 능가하는 순수 인덱스 기반의 빠른 근사 매칭을 가능하게 한다.

ABSTRACT

Finding approximate occurrences of a pattern in a text using a full-text index is a central problem in bioinformatics and has been extensively researched. Bidirectional indices have opened new possibilities in this regard allowing the search to start from anywhere within the pattern and extend in both directions. In particular, use of search schemes (partitioning the pattern and searching the pieces in certain orders with given bounds on errors) can yield significant speed-ups. However, finding optimal search schemes is a difficult combinatorial optimization problem. Here for the first time, we propose a mixed integer program (MIP) capable to solve this optimization problem for Hamming distance with given number of pieces. Our experiments show that the optimal search schemes found by our MIP significantly improve the performance of search in bidirectional FM-index upon previous ad-hoc solutions. For example, approximate matching of 101-bp Illumina reads (with two errors) becomes 35 times faster than standard backtracking. Moreover, despite being performed purely in the index, the running time of search using our optimal schemes (for up to two errors) is comparable to the best state-of-the-art aligners, which benefit from combining search in index with in-text verification using dynamic programming. As a result, we anticipate a full-fledged aligner that employs an intelligent combination of search in the bidirectional FM-index using our optimal search schemes and in-text verification using dynamic programming outperforms today's best aligners. The development of such an aligner, called FAMOUS (Fast Approximate string Matching using OptimUm search Schemes), is ongoing as our future work.

연구 동기 및 목표

  • 이방향 FM-인덱스에서 근사 문자열 매칭을 위한 최적의 검색 체계를 찾는 문제에 대응함으로써 효율적인 생물시퀀스 분석에 기여하고자 한다.
  • 고정된 패턴 조각 수를 가진 히브밍 거리 기반의 검색 체계 최적화 문제를 혼합정수계획법(MIP)으로 공식화하고자 한다.
  • 패턴 분할 및 오차 분포에 대한 사전에 정의된 해법에 의존하는 것이 아니라, 패턴 분할 및 오차 분포에 대해 증명 가능하게 최적의 해법을 제공하고자 한다.
  • 동적 프로그래밍을 사용하는 전통적 어라이너에 비해 빠르고, 순수 인덱스 기반의 근사 매칭을 가능하게 하여 최신 어라이너의 성능을 뛰어넘는다.
  • 향후 세대 어라이너를 위한 기반을 마련하고자 하며, 최적의 인덱스 기반 검색과 텍스트 내 동적 프로그래밍 검증을 지능적으로 통합하고자 한다.

제안 방법

  • 패턴을 조각들로 나누고 오차 한계를 고려한 검색 순서를 결정하기 위해 검색 체계 최적화 문제를 혼합정수계획법(MIP)으로 공식화한다.
  • 패턴을 부분 문자열(조각)의 시퀀스로 모델링하고, 주어진 히브밍 거리 내에서 가능한 모든 근사 매칭을 커버하기 위한 제약 조건을 정의한다.
  • 조각 검색 순서와 조각 간 오차 분포를 최적화하여 총 검색 시간을 최소화하기 위해 MIP를 사용한다.
  • 계산된 최적의 검색 체계를 이방향 FM-인덱스에 통합하여, 텍스트 내 검증 없이도 근사 문자열 매칭을 가속화한다.
  • 실제 이뮤니케이션 리드(예: 101-bp, 두 개의 오류 포함)를 사용하여 최적 체계의 성능을 평가하고, 표준 백트래킹 및 최신 어라이너와의 성능을 비교한다.
  • 향후 어라이너 개발을 위한 프레임워크를 설계하며, 최적의 인덱스 기반 검색과 동적 프로그래밍을 통한 텍스트 내 검증을 통합한다.

실험 결과

연구 질문

  • RQ1히브밍 거리 기반 근사 문자열 매칭을 위한 최적의 검색 체계를 찾는 조합 최적화 문제를 효과적으로 혼합정수계획법(MIP)으로 공식화할 수 있는가?
  • RQ2이방향 FM-인덱스에서 표준 백트래킹 대비 MIP 최적화 검색 체계를 사용할 경우 성능 향상은 어느 정도 기대할 수 있는가?
  • RQ3최적의 체계를 사용한 순수 인덱스 기반 검색이, 텍스트 내 검증을 위해 동적 프로그래밍을 사용하는 최신 어라이너의 속도와 정확도를 어느 정도 충족하거나 능가할 수 있는가?
  • RQ4101-bp 이뮤니케이션 리드에 대해 최대 두 개의 오류가 있는 실세계 시퀀싱 데이터에 대해 최적의 검색 체계를 효율적으로 계산하고 적용할 수 있는가?
  • RQ5최적의 인덱스 기반 검색과 동적 프로그래밍 검증을 결합하여 보다 뛰어난 차세대 어라이너를 구축할 잠재력은 무엇인가?

주요 결과

  • MIP 기반 접근법은 히브밍 거리 기반 근사 문자열 매칭을 위한 최적의 검색 체계를 성공적으로 계산하여 이전에 어려웠던 조합 최적화 문제를 해결했다.
  • 101-bp 이뮤니케이션 리드에 대해 두 개의 오류가 있는 경우, FAMOUS의 최적 체계를 사용하면 표준 백트래킹 대비 최대 35배 더 빠른 검색 속도를 달성한다.
  • FAMOUS의 최적 체계를 사용한 검색 실행 시간(최대 두 개의 오류까지)은 최고 수준의 최신 어라이너와 유사한 성능을 보이며, 이는 순수 인덱스 기반 검색에 기반함에도 불구하고 성능이 유사하다는 것을 의미한다.
  • 성능 향상 결과는 최적의 검색 체계를 통해 텍스트 내 동적 프로그래밍 검증 없이도 어라이너 수준의 효율성을 달성할 수 있음을 시사한다.
  • 결과적으로, FAMOUS의 최적 인덱스 기반 검색과 텍스트 내 동적 프로그래밍 검증을 결합한 미래 어라이너가 현재 최고의 어라이너를 능가할 수 있음을 시사한다.
  • 이 방법은 검색 체계 생성에 대해 확장 가능하고 증명 가능한 최적의 해법을 제공하여, 생물정보학 분야에서 더 빠르고 효율적인 근사 문자열 매칭을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.