[論文レビュー] SafeLoad: Efficient Admission Control Framework for Identifying Memory-Overloading Queries in Cloud Data Warehouses
SafeLoad は、ハイブリッドなグローバル-クラスタモデルと自己調整型割当機構を用いてクラウドデータウェアハウスのメモリ過負荷クエリを識別する admissions-control フレームワークであり、新しい MO ラベル付きベンチマーク SafeBench を備える。
Memory overload is a common form of resource exhaustion in cloud data warehouses. When database queries fail due to memory overload, it not only wastes critical resources such as CPU time but also disrupts the execution of core business processes, as memory-overloading (MO) queries are typically part of complex workflows. If such queries are identified in advance and scheduled to memory-rich serverless clusters, it can prevent resource wastage and query execution failure. Therefore, cloud data warehouses desire an admission control framework with high prediction precision, interpretability, efficiency, and adaptability to effectively identify MO queries. However, existing admission control frameworks primarily focus on scenarios like SLA satisfaction and resource isolation, with limited precision in identifying MO queries. Moreover, there is a lack of publicly available MO-labeled datasets with workloads for training and benchmarking. To tackle these challenges, we propose SafeLoad, the first query admission control framework specifically designed to identify MO queries. Alongside, we release SafeBench, an open-source, industrial-scale benchmark for this task, which includes 150 million real queries. SafeLoad first filters out memory-safe queries using the interpretable discriminative rule. It then applies a hybrid architecture that integrates both a global model and cluster-level models, supplemented by a misprediction correction module to identify MO queries. Additionally, a self-tuning quota management mechanism dynamically adjusts prediction quotas per cluster to improve precision. Experimental results show that SafeLoad achieves state-of-the-art prediction performance with low online and offline time overhead. Specifically, SafeLoad improves precision by up to 66% over the best baseline and reduces wasted CPU time by up to 8.09x compared to scenarios without SafeLoad.
研究の動機と目的
- クラウドデータウェアハウスにおけるメモリ過負荷を資源枯渇の重大な問題として捉える。
- 高精度・解釈性・効率・適応性を備え、メモリ過負荷クエリ(MO クエリ)を検出する admissions control フレームワークを提供する。
- 実世界のワークロードデータを用いたオープンな産業規模のベンチマーク(SafeBench)を公開し、MO クエリ検出を訓練・ベンチマークできるようにする。
提案手法
- 解釈可能な識別規則を用いてメモリ安全クエリをフィルタリングする。
- グローバルモデルとクラスターレベルモデルを組み合わせたハイブリッドアーキテクチャを使用する。
- MO クエリ識別を洗練させる誤予測訂正モジュールを組み込む。
- クラスタごとに予測クォータを動的に調整する自己調整型クォータ管理機構を適用する。
- 高い予測精度を維持しつつオンラインおよびオフラインのオーバーヘッドを低く抑えることを目指す。
実験結果
リサーチクエスチョン
- RQ1クエリ特徴とワークロード文脈に基づいて MO クエリをどれだけ正確に識別できるか。
- RQ2グローバル+クラスターモデルのハイブリッドアプローチはベースラインより MO クエリ検出を改善するか。
- RQ3自己調整型クォータ機構はクラスタ間の精度と資源利用を改善できるか。
- RQ4SafeLoad が無駄な CPU 時間と全体のシステム効率に与える影響はどの程度か。
- RQ5SafeBench のような大規模でラベル付きの MO クエリベンチマークで SafeLoad はどう機能するか。
主な発見
- SafeLoad は最先端の予測性能をオンライン・オフライン両方の時間オーバーヘッドを低く抑えて達成する。
- 最高ベースラインに対して精度が最大で 66%向上する。
- SafeLoad を使用しない場合と比較して無駄な CPU 時間を最大で 8.09 倍削減できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。