QUICK REVIEW

[논문 리뷰] FLAT: Fast, Lightweight and Accurate Method for Cardinality Estimation.

Rong Zhu, Zi‐Niu Wu|arXiv (Cornell University)|2020. 01. 01.

Data Management and Algorithms참고 문헌 43인용 수 2

한 줄 요약

FLAT는 독창적인 비지도 그래픽 모델인 FSPN을 사용하여 독립적이고 조건부로 인수분해를 조합함으로써 속도가 빠르고 가볍고 정확한 카디널리티 추정 방법이다. 이는 다양하게 변화하는 속성 상관관계를 적응적으로 모델링할 수 있으며, 근사 선형 시간 확률 계산을 가능하게 하고, 저장소 비용을 1~2개 주문 정도로 감소시키며, 기존 방법 대비 1~5개 주문 정도의 정확도 향상을 이룬다. Postgres에서 기준 대비 12.9% 빠른 쿼리 실행 시간을 달성한다.

ABSTRACT

Query optimizers rely on accurate cardinality estimation (CardEst) to produce good execution plans. The core problem of CardEst is how to model the rich joint distribution of attributes in an accurate and compact manner. Despite decades of research, existing methods either over simplify the models only using independent factorization which leads to inaccurate estimates, or over complicate them by lossless conditional factorization without any independent assumption which results in slow probability computation. In this paper, we propose FLAT, a CardEst method that is simultaneously fast in probability computation, lightweight in model size and accurate in estimation quality. The key idea of FLAT is a novel unsupervised graphical model, called FSPN. It utilizes both independent and conditional factorization to adaptively model different levels of attributes correlations, and thus dovetails their advantages. FLAT supports efficient online probability computation in near liner time on the underlying FSPN model, provides effective offline model construction and enables incremental model updates. It can estimate cardinality for both single table queries and multi table join queries. Extensive experimental study demonstrates the superiority of FLAT over existing CardEst methods on well known IMDB benchmarks: FLAT achieves 1 to 5 orders of magnitude better accuracy, 1 to 3 orders of magnitude faster probability computation speed and 1 to 2 orders of magnitude lower storage cost. We also integrate FLAT into Postgres to perform an end to end test. It improves the query execution time by 12.9% on the benchmark workload, which is very close to the optimal result 14.2% using the true cardinality.

연구 동기 및 목표

카디널리티 추정에서 모델 정확도, 계산 속도, 저장소 비용 간의 상충 관계를 해결하기 위해.
순수한 독립성 또는 손실 없는 조건부 인수분해에만 의존하지 않고도 복잡한 속성 상관관계를 효율적으로 모델링하기 위한 방법을 개발하기 위해.
동적 데이터베이스를 위한 빠른 온라인 확률 계산과 증분적 모델 업데이트를 가능하게 하기 위해.
단일 테이블 및 다중 테이블 조인 쿼리를 모두 고려하여 높은 추정 정확도를 제공하기 위해.
실제 데이터베이스 시스템에 통합되어 종단 간 성능 향상을 입증하기 위해.

제안 방법

FLAT는 독립적이고 조건부로 인수분해를 조합하여 다양한 수준의 속성 상관관계를 적응적으로 포착할 수 있는 새로운 비지도 그래픽 모델인 FSPN을 도입한다.
약한 상관관계가 있는 속성에는 독립적 인수분해, 강한 상관관계가 있는 속성에는 조건부 인수분해를 사용하는 하이브리드 인수분해 전략을 적용하여 정확도와 효율성의 균형을 이룬다.
FSPN 구조상 최적화된 추론 알고리즘을 통해 근사 선형 시간 확률 계산을 지원한다.
오프라인 모델 구축은 데이터베이스 통계에 기반한 비지도 학습을 통해 수행되어 효율적인 초기화를 가능하게 한다.
모델을 전체 재학습 없이 스키마나 데이터 변경에 대응하기 위해 증분 업데이트를 지원한다.
종단 간 평가를 위해 Postgres에 통합되어 실용적인 구현 가능성을 입증한다.

실험 결과

연구 질문

RQ1독립적 인수분해와 조건부 인수분해를 조합한 하이브리드 인수분해 모델이 순수 독립 또는 완전 조건부 모델보다 더 높은 정확도를 달성할 수 있는가?
RQ2이러한 모델은 저장소 오버헤드를 줄이면서도 빠른 확률 계산을 유지할 수 있는가?
RQ3다양한 쿼리 워크로드에서 정확도, 속도, 메모리 사용량 측면에서 모델의 확장성은 어떠한가?
RQ4Postgres와 같은 실제 DBMS에 통합되었을 때 FLAT는 쿼리 실행 시간을 얼마나 향상시킬 수 있는가?
RQ5최적화 품질 측면에서 참값 카디널리티와 비교했을 때 FLAT의 성능은 어느 정도인가?

주요 결과

IMDB 벤치마크에서 기존 방법 대비 FLAT는 카디널리티 추정 정확도를 1~5개 주문 정도 향상시켰다.
기존 접근 방식 대비 확률 계산 시간을 1~3개 주문 정도 감소시켰다.
저장소 비용은 1~2개 주문 정도 감소하여 모델이 경량화되었다.
Postgres에 통합된 결과, FLAT는 쿼리 실행 시간을 기준 대비 12.9% 향상시켰으며, 참값 카디널리티를 사용한 최적의 14.2%에 근접한 성능을 달성했다.
단일 테이블 및 다중 테이블 조인 쿼리 모두에서 일관된 성능 향상을 제공한다.
증분 업데이트를 통해 재학습 없이도 데이터 및 스키마 변경에 효율적으로 대응할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.