QUICK REVIEW

[論文レビュー] Semantic Caching for OLAP via LLM-Based Query Canonicalization (Extended Version)

Laurent Bindschaedler|arXiv (Cornell University)|Feb 23, 2026

Advanced Database Systems and Queries被引用数 0

ひとこと要約

論文は、ダッシュボード型 OLAP（星スキーマ上）向けに、SQLと自然言語クエリを統一の OLAP Intent Signature に正準化する安全第一のミドルウェアキャッシュを提案し、クロスクライアントな意味論的キャッシュを実現する。正確性を保つ導出と NL 安全性ゲートを備える。

ABSTRACT

Analytical workloads exhibit substantial semantic repetition, yet most production caches key entries by SQL surface form (text or AST), fragmenting reuse across BI tools, notebooks, and NL interfaces. We introduce a safety-first middleware cache for dashboard-style OLAP over star schemas that canonicalizes both SQL and NL into a unified key space -- the OLAP Intent Signature -- capturing measures, grouping levels, filters, and time windows. Reuse requires exact intent matches under strict schema validation and confidence-gated NL acceptance; two correctness-preserving derivations (roll-up, filter-down) extend coverage without approximate matching. Across TPC-DS, SSB, and NYC TLC (1,395 queries), we achieve 82% hit rate versus 28% (text) and 56% (AST) with zero false hits; derivations double hit rate on hierarchical queries.

研究の動機と目的

異種 BI ツールや NL インタフェース間でのクエリキャッシュの断片化を解消する。
SQL と NL クエリのための統一・携帯性の高いキー空間（OLAP Intent Signature）を提案する。
スキーマ検証、信頼度ゲーティング、及び安全な導出（ロールアップ、フィルター・ダウン）で正確性を担保する。
標準 OLAP ワークロードでのヒット率、正確性、バックエンド節約を評価する。
プロトタイプを提供し、展開の考慮事項と制限を議論する。

提案手法

SQL と NL の両方を構造化された OLAP Intent Signature に正準化し、JSON エンコード後にキャッシュキーとしてハッシュ化する。
シグネチャをスキーマに対して検証：メジャー、ディメンション、時間ウィンドウ、結合があいまいでなくサポートされていることを保証する。
シグネチャのハッシュをキーとするキャッシュに結果を格納・取得し、キャッシュミス時にはバックエンドで実行する。
再利用を安全に拡張するため、事前条件を明示的に設けた正確性を保つ導出（ロールアップ、フィルター・ダウン）を二つ用いる。
NL リクエストは LLM によって制約された JSON スキーマへマッピングされ、信頼度スコアが安全性ゲーティングに用いられる。
TPC-DS、SSB、NYC TLC ワークロードで NL と SQL の variante を評価し、テキストベースおよび AST ベースのキャッシングと比較する。

実験結果

リサーチクエスチョン

RQ1OLAP Intent Signature キャッシュのヒット率は複数の意思決定サポートワークロードでどうなるか？
RQ2正確性を保つ導出（ロールアップ、フィルター・ダウン）は偽ヒットを生まずにキャッシュの適用範囲を拡張できるか？
RQ3OLAP Intent Signature キャッシュを用いた場合のバックエンド計算節約とオーバーヘッドはどれくらいか？
RQ4NL の正準化はキャッシュ再利用の意味論的エラーを防ぐうえでどれほど信頼でき、セーフティポリシーは精度とカバレッジにどう影響するか？
RQ5階層的ドリルパターンや敵対的 NL 入力の下でのアプローチの性能はどうか？

主な発見

提案された LLMSigCache は NYC TLC、SSB、TPC-DS で平均ヒット率 82% を達成し、テキストベースのキャッシュ（28.2%）および AST ベースのキャッシュ（55.6%）を上回る。
バックエンド計算は LLMSigCache で 85～90% 削減され、SQL サブセットでは ASTCache と同等、NL キャッシュによって全体として高い。
安全な導出（ロールアップ、フィルター・ダウン）は階層的ワークロードのヒット率を 37% から 80%へ引き上げ、偽ヒットゼロを実現。
NL の意味論的正確性は敵対的 NL クエリで 44%、BIRD 人手作成質問で 51% であり、再利用の安全ゲーティングの必要性を示唆。
信頼度閾値 0.5 で精度は 76.9%、カバレッジ 37%、スキーマ特定ヒューリスティクスでさらに精度が改善。
導出は階層的ドリルパターンのカバレッジを拡張し、正確性を損なうことなくヒット率を大幅に向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。