Skip to main content
QUICK REVIEW

[論文レビュー] RIOT: I/O-Efficient Numerical Computing without SQL

Yi Zhang, Herodotos Herodotou|ArXiv.org|Sep 9, 2009
Advanced Data Storage Technologies参考文献 16被引用数 30
ひとこと要約

RIOTは、ユーザーがSQLを学ぶ必要なく、コードを再書き直さずに大規模なデータセットにおけるRの性能を向上させるシステムを導入する。高レベルの最適化とリレーショナルデータベースバックエンドを統合することで、RIOT-DBはネイティブRよりも顕著な高速化を達成し、データベースに由来する技術がデータ分析ワークロードのスケーラビリティを透明に向上させられることを示している。

ABSTRACT

R is a numerical computing environment that is widely popular for statistical data analysis. Like many such environments, R performs poorly for large datasets whose sizes exceed that of physical memory. We present our vision of RIOT (R with I/O Transparency), a system that makes R programs I/O-efficient in a way transparent to the users. We describe our experience with RIOT-DB, an initial prototype that uses a relational database system as a backend. Despite the overhead and inadequacy of generic database systems in handling array data and numerical computation, RIOT-DB significantly outperforms R in many large-data scenarios, thanks to a suite of high-level, inter-operation optimizations that integrate seamlessly into R. While many techniques in RIOT are inspired by databases (and, for RIOT-DB, realized by a database system), RIOT users are insulated from anything database related. Compared with previous approaches that require users to learn new languages and rewrite their programs to interface with a database, RIOT will, we believe, be easier to adopt by the majority of the R users.

研究の動機と目的

  • メインメモリ容量を超える大規模なデータセットに対してRが著しく性能を発揮しない問題に対処すること。
  • ユーザーが新しいクエリ言語を学んだり、プログラムを再書き直したりすることなく、I/O効率の良い計算をRで可能にすること。
  • データベースに由来する最適化をRプログラミング環境にシームレスに統合するシステムを設計すること。
  • 高レベルの最適化を追加した一般向けRDBMSが、スケーラブルな数値計算のバックエンドとして実用的かどうかを評価すること。
  • ユーザーのワークフローもコードの変更も必要とせず、透明にパフォーマンス向上を達成できるかどうかを実証すること。

提案手法

  • RIOT-DBは、R計算のバックエンドストレージおよび実行エンジンとしてリレーショナルデータベースシステムを採用する。
  • ユーザーに対して透明な高レベルの、相互作用に特化した最適化を適用し、R実行フローに直接統合する。
  • 最適化にはクエリプッシュダウン、述語プッシュダウン、選択的マテリアライゼーションが含まれ、I/Oを最小限に抑え、データローカリティを向上させる。
  • データベース固有の操作を抽象化することで、ユーザーが通常のRを使用するだけでよく、直接SQLに触れる必要がない。
  • RIOTはストレージおよびインデキシングに既存のデータベース技術を活用しながら、アレイデータの取り扱いや数値計算に特化する。
  • 遅延評価と効率的なデータストリーミングをサポートし、メモリ圧力とI/Oオーバーヘッドを低減する。

実験結果

リサーチクエスチョン

  • RQ1一般向けのデータベースバックエンドが、ユーザーがSQLを学ぶ必要なく、I/O効率を著しく向上させられるか。
  • RQ2高レベルの、相互作用に特化した最適化は、大規模な数値データセットにおいてI/Oを削減し、パフォーマンスを向上させるのにどの程度効果的か。
  • RQ3一般向けRDBMSが、Rにおけるアレイベースの数値ワークロードをどの程度適応的にサポートできるか。
  • RQ4ユーザーのワークフローもコードの変更も必要とせず、透明にパフォーマンス向上を達成できるか。
  • RQ5一般用途のRDBMSを数値計算に使用する際のパフォーマンスボトルネックは何か、そしてそれらをどのように緩和できるか。

主な発見

  • RIOT-DBは、一般向けRDBMSに起因する固有のオーバーヘッドがあるにもかかわらず、多くの大規模データのシナリオでネイティブRを著しく上回る性能を発揮する。
  • システムは、I/Oを削減し、データローカリティを向上させる高レベルの最適化により、標準のRDBMSを使用してもパフォーマンス向上を達成する。
  • ユーザーはデータベースの内部構造から保護され、新しい言語やインターフェースを学ぶ必要なく、通常のRを使用できる。
  • プロトタイプは、データベースに由来する技術がRのような数値計算環境に効果的に適用可能であることを実証している。
  • パフォーマンス向上は、クエリ最適化、操作プッシュダウン、効率的なデータ管理に起因するが、アレイデータの取り扱いが最適でない場合でも成立する。
  • 結果から、ユーザーのコードを変更せず、新しいプログラミングモデルを採用しなくても、RにおけるI/O効率を著しく向上させられると示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。