Skip to main content
QUICK REVIEW

[論文レビュー] Apache Calcite: A Foundational Framework for Optimized Query Processing Over Heterogeneous Data Sources

Edmon Begoli, Jesús Camacho-Rodríguez|OSTI OAI (U.S. Department of Energy Office of Scientific and Technical Information)|Feb 28, 2018
Data Management and Algorithms参考文献 29被引用数 49
ひとこと要約

この論文は、Apache Calcite をモジュール式で埋め込み可能なフレームワークとして提示します。クエリ処理、最適化、言語サポートを提供し、異種データソースおよびバックエンドにわたるクエリを連携・最適化します。

ABSTRACT

Apache Calcite is a foundational software framework that provides query processing, optimization, and query language support to many popular open-source data processing systems such as Apache Hive, Apache Storm, Apache Flink, Druid, and MapD. Calcite's architecture consists of a modular and extensible query optimizer with hundreds of built-in optimization rules, a query processor capable of processing a variety of query languages, an adapter architecture designed for extensibility, and support for heterogeneous data models and stores (relational, semi-structured, streaming, and geospatial). This flexible, embeddable, and extensible architecture is what makes Calcite an attractive choice for adoption in big-data frameworks. It is an active project that continues to introduce support for the new types of data sources, query languages, and approaches to query processing and optimization.

研究の動機と目的

  • 異種データソースとバックエンドを横断してクエリを最適化する統一フレームワークの必要性を喚起する。
  • ストレージ管理を伴わないクエリ処理のモジュラーで拡張可能な基盤としてCalciteのアーキテクチャを説明する。
  • アダプタ、リレーショナル代数、およびtraitsがどのようにしてクロスシステムの最適化と実行を可能にするかを説明する。
  • リレーショナル、半構造化、ストリーミング、ジオスペーシャルなど複数のデータモデルとクエリ言語の拡張性を強調する。
  • 人気のあるオープンソース系システムとの統合を通じた採用と影響を示す。

提案手法

  • リレーショナル代数コアとプラグイン可能な最適化機(ルール、メタデータプロバイダ、プランナーエンジン)を備えたCalciteのアーキテクチャを説明する。
  • 外部データストアを読み取り、ロジックをバックエンドへプッシュダウンするためのアダプタ設計(モデル、スキーマ、スキーマファクトリ)を説明する。
  • クロスバックエンド最適化を可能にするトレイトベースの物理プロパティと呼び出し規約を詳述する。
  • コストベースと全探索のプランナーエンジン、および最適化のためのマテリアライズドビュー書換えを提示する。
  • 半構造化データ、ストリーミング、ジオスペーシャルデータの拡張、さらに言語統合クエリ (LINQ4J) を議論する。
  • 業界システムとの統合と組み込み可能な最適化レイヤーとしての Calcite の役割を例示する。

実験結果

リサーチクエスチョン

  • RQ1単一のフレームワークが異種データソースと処理バックエンドを横断した効率的なクエリ最適化をどのようにサポートできるか?
  • RQ2拡張可能なアダプタとクロスシステム計画を実現するために必要なアーキテクチャ要素は何か?
  • RQ3SQLと非-SQLクエリ処理を共通のリレーショナル代数コア内でどのように統一できるか?
  • RQ4半構造化、ストリーミング、ジオスペーシャルデータをサポートするためにどのような拡張が必要か?
  • RQ5産業界と学界におけるCalciteの影響と採用状況はどうか?

主な発見

  • Calcite は hundreds? exact values must be kept. It says "hundreds of rules" in English; we must translate but keep numeric? It says keep ALL numbers; "hundreds" isn't a number. It is a word; we should translate as "数百のルール" yes.
  • アダプタはCalciteが多様なデータソースをどのように読み取るかを定義し、述語や操作のバックエンド横断のプッシュダウンを可能にする。
  • ANSI SQLと拡張をサポートし、JDBCドライバと異種データモデルのクエリアルゲブラを備える。
  • このフレームワークはトレイトと呼び出し規約を用いて、バックエンド間の物理プロパティと実行戦略を推論する。
  • Calcite は Hive、Drill、Storm、Flink、Solr など多くのプロジェクトに広く採用されており、広範な産業界への影響を示している。
  • Calcite は SQL を超えて半構造化、ストリーミング、ジオスペーシャルデータにも拡張され、LINQ4J を介した言語統合クエリを提供します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。