Skip to main content
QUICK REVIEW

[論文レビュー] TiInsight: A SQL-based Automated Exploratory Data Analysis System through Large Language Models

Jun-Peng Zhu, Boyan Niu|arXiv (Cornell University)|Jan 14, 2026
Natural Language Processing Techniques被引用数 0
ひとこと要約

TiInsightは、巨大言語モデルを用いて階層的データコンテキストを生成し、質問を明確化・分解し、TiSQLでSQLへ変換し、GUIを介してTiChartで結果を可視化するSQLベースの自動クロスドメインEDAシステムです。

ABSTRACT

The SQL-based exploratory data analysis has garnered significant attention within the data analysis community. The emergence of large language models (LLMs) has facilitated the paradigm shift from manual to automated data exploration. However, existing methods generally lack the ability for cross-domain analysis, and the exploration of LLMs capabilities remains insufficient. This paper presents TiInsight, an SQL-based automated cross-domain exploratory data analysis system. First, TiInsight offers a user-friendly GUI enabling users to explore data using natural language queries. Second, TiInsight offers a robust cross-domain exploratory data analysis pipeline: hierarchical data context (i.e., HDC) generation, question clarification and decomposition, text-to-SQL (i.e., TiSQL), and data visualization (i.e., TiChart). Third, we have implemented and deployed TiInsight in the production environment of PingCAP and demonstrated its capabilities using representative datasets. The demo video is available at https://youtu.be/JzYFyYd-emI.

研究の動機と目的

  • 実世界の設定でSQLとLLMsを用いた自動化されたクロスドメイン探索データ分析の必要性を動機づける。
  • データ探索の敷居を下げるエンドツーエンドのシステム(HDC、質問の明確化、TiSQL、TiChart)を開発し、SQL知識なしでも利用可能にする。
  • 実用的なEDAワークフローを示すための使いやすいGUIと実運用準備のデプロイを提供する。
  • クロスドメイン・不明瞭な意図のシナリオにおける最先端のテキスト-to-SQLおよび表をチャートへ変換する手法の限界に対処する。

提案手法

  • クロスドメイン探索のためのデータベーススキーマを要約・整理する階層的データコンテキスト(HDC)生成を提案する。
  • あいまいな意図を解決し、タスクをサブ質問へ分解する質問明確化・分解モジュールを導入する。
  • コース・ファイン(coarse-to-fine)マッピングとマップリデュースフレームワーク、および自己改良チェーン(EXPLAINとEXECUTE)を用いたSQLエラーを訂正する2段階のTiSQLを開発する。
  • 複雑なタスクに対して適切なチャートタイプを推奨するためにLLMsを補完したルールベースのデータ可視化ツールTiChartを作成する。
  • データのインポート、NL対話、ブックマーク、およびマルチLLMスイッチングをサポートするウェブUIを提供する。
  • 実世界の2つのデータセット(FinancialとBird)を用いてエンドツーエンドを実運用に近い設定でデモし、 supporting demo resourcesを公開する。

実験結果

リサーチクエスチョン

  • RQ1TiInsightはHDCガイド付きコンテキストを用いて自然言語質問から異なるドメインのSQLを正確に生成できるか。
  • RQ2不明瞭なユーザー意図を探索データタスクで質問明確化・分解はどれほど効果的か。
  • RQ3二段階TiSQL(マップリデュースと自己改良チェーン)は従来のプロンプトベース手法より正確さと効率を向上させるか。
  • RQ4TiChartは複雑な複数サブタスク探索に対して適切な可視化を確実に推奨できるか。
  • RQ5PingCAPのような実運用環境で、代表的なデータセットに対してTiInsightは実用性と性能を発揮するか。

主な発見

  • TiInsightはNL入力からSQL実行およびGUIによる可視化までのエンドツーエンドのEDAワークフローを示す。
  • HDC生成はスキーマ・表・関係の要約を通じてSQL生成を指向し、クロスドメイン理解を加速する。
  • TiSQLは coarse-to-fine のスキーマフィルタリングとマップリデュースのプロンプト処理、自己改良チェーンを組み合わせてSQLエラーを削減する。
  • TiChartはルールベースのヒューリスティックとLLMsを融合して、複数サブタスク探索に適した可視化タイプを選択する。
  • 2つの実世界のPingCAPデータセット(FinancialとBird)でデモンストレーションされ、実用的なデプロイ潜在性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。