Skip to main content
QUICK REVIEW

[논문 리뷰] Proximity Full-Text Search with a Response Time Guarantee by Means of Additional Indexes with Multi-Component Keys

Alexander B. Veretennikov|arXiv (Cornell University)|2018. 01. 01.
Algorithms and Data Compression참고 문헌 14인용 수 2
한 줄 요약

이 논문은 고빈도 검색어에 대해 특히 효과적인 응답 시간을 크게 단축하기 위해 세 구성 요소 키 인덱스를 사용하는 근접 전문 검색 알고리즘을 제안한다. 가변적인 MaxDistance 내에서 단어 간 근접성을 사전 인덱싱함으로써, 기존의 두 구성 요소 인덱싱 대비 최대 94.7배 빠른 쿼리 실행 속도를 달성한다. 이는 전문 검색 워크로드에서 뚜렷한 성능 향상을 보여준다.

ABSTRACT

Full-text search engines are important tools for information retrieval. In a proximity full-text search, a document is relevant if it contains query terms near each other, especially if the query terms are frequently occurring words. For each word in the text, we use additional indexes to store information about nearby words at distances from the given word of less than or equal to MaxDistance, which is a parameter. We had shown that additional indexes with three-component keys can be used to improve the average query execution time up to 94.7 times if the queries consist of high-frequency used words. In this paper, we present a new search algorithm with even more performance gains. We also present results of search experiments, which show that three-component key indexes enable much faster searches in comparison with two-component key indexes.

연구 동기 및 목표

  • 빈번히 발생하는 단어에 대한 근접 전문 검색에서 응답 시간을 향상시키기.
  • 고빈도 단어가 서로 가까이 위치할 경우 기존 전문 검색에서 발생하는 성능 저하 문제를 해결하기.
  • 지정된 거리 내의 단어 쌍을 신속하게 검색할 수 있도록 인덱스 구조를 설계하기.
  • 두 구성 요소 접근 방식 대비 다중 구성 요소 키 인덱스의 쿼리 실행 시간 단축 효과를 평가하기.

제안 방법

  • 근접 관계를 포괄하기 위해 세 구성 요소 키(단어, 거리, 이웃 단어)를 사용해 추가 인덱스를 구축하기.
  • 각 단어에 대해 MaxDistance 이내의 모든 근접 단어를 저장하여 쿼리 처리 시 효율적인 검색을 가능하게 하기.
  • 세 구성 요소 키 구조를 활용해 근접 정보를 사전에 계산하고 인덱싱함으로써 런타임 계산을 최소화하기.
  • 사전에 인덱싱된 근접 데이터를 활용해 쿼리 실행을 최적화하여 관련 문서를 신속하게 식별하기.
  • 거리 인덱싱의 효과를 분리하기 위해 두 구성 요소 키 인덱스(단어, 이웃 단어)와 성능을 비교하기.
  • 세 구성 요소 인덱스를 활용해 근접 제약 조건을 충족하는 문서를 효율적으로 검색하는 검색 알고리즘 구현하기.

실험 결과

연구 질문

  • RQ1세 구성 요소 키 인덱스는 두 구성 요소 인덱스 대비 근접 전문 검색에서 응답 시간을 줄일 수 있는가?
  • RQ2쿼리어의 빈도가 증가함에 따라 성능 향상은 어떻게 변화하는가?
  • RQ3제안된 인덱스 구조를 사용할 경우 쿼리 실행 시간의 최대 속도 향상은 얼마인가?
  • RQ4MaxDistance 파라미터는 인덱스 크기와 쿼리 성능에 어떤 영향을 미치는가?

주요 결과

  • 제안된 세 구성 요소 키 인덱스 구조는 고빈도 단어를 포함한 쿼리에서 평균 쿼리 실행 시간을 최대 94.7배 감소시킨다.
  • 세 구성 요소 키 인덱스는 특히 빈번한 쿼리어에 대해 두 구성 요소 키 인덱스보다 검색 속도에서 뛰어나다.
  • 성능 향상은 자주 발생하는 단어가 코퍼스에 다수 포함되어 있을 경우 가장 뚜렷하다.
  • 사전에 구성 가능한 MaxDistance 내에서 단어 간 근접 관계를 계산하고 인덱싱함으로써 저지연 근접 검색을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.