Skip to main content
QUICK REVIEW

[논문 리뷰] TiInsight: A SQL-based Automated Exploratory Data Analysis System through Large Language Models

Jun-Peng Zhu, Boyan Niu|arXiv (Cornell University)|2026. 01. 14.
Natural Language Processing Techniques인용 수 0
한 줄 요약

TiInsight는 대규모 언어 모델을 사용하여 계층적 데이터 컨텍스트를 생성하고, 질문을 명확히 분해하고, TiSQL을 통해 SQL로 변환하며, GUI를 통한 TiChart로 결과를 시각화하는 SQL 기반 자동화 교차 도메인 EDA 시스템입니다.

ABSTRACT

The SQL-based exploratory data analysis has garnered significant attention within the data analysis community. The emergence of large language models (LLMs) has facilitated the paradigm shift from manual to automated data exploration. However, existing methods generally lack the ability for cross-domain analysis, and the exploration of LLMs capabilities remains insufficient. This paper presents TiInsight, an SQL-based automated cross-domain exploratory data analysis system. First, TiInsight offers a user-friendly GUI enabling users to explore data using natural language queries. Second, TiInsight offers a robust cross-domain exploratory data analysis pipeline: hierarchical data context (i.e., HDC) generation, question clarification and decomposition, text-to-SQL (i.e., TiSQL), and data visualization (i.e., TiChart). Third, we have implemented and deployed TiInsight in the production environment of PingCAP and demonstrated its capabilities using representative datasets. The demo video is available at https://youtu.be/JzYFyYd-emI.

연구 동기 및 목표

  • 실제 환경에서 SQL과 LLM을 사용한 자동화된 교차 도메인 탐색적 데이터 분석의 필요성을 동기화한다.
  • SQL 전문 지식 없이도 데이터 탐색의 장벽을 낮추는 엔드-투-엔드 시스템(HDC, 질문 명확화, TiSQL, TiChart)을 개발한다.
  • 실용적인 EDA 워크플로를 시연하기 위한 사용자 친화적 GUI와 프로덕션 준비된 배포를 제공한다.
  • 크로스 도메인, 불분명한 의도 시나리오에서 최첨단 텍스트-대- SQL 및 표-대-차트 접근 방식의 한계를 해결한다.

제안 방법

  • 크로스 도메인 탐색을 위한 데이터베이스 스키마를 요약·정리하는 계층적 데이터 컨텍스트(HDC) 생성을 제안한다.
  • 모호한 의제를 해결하고 작업을 하위 질문으로 분할하기 위한 질문 명확화 및 분해 모듈을 도입한다.
  • 두 단계 매핑(coarse-to-fine)을 사용하는 텍스트-대- SQL 구성요소인 TiSQL을 개발하고, 매핑-리듀스 프레임워크와 자체 정제 체인(EXPLAIN 및 EXECUTE)을 통해 SQL 오류를 수정한다.
  • 복잡한 작업에 적합한 차트 유형을 추천하기 위해 LLM으로 보강된 규칙 기반 데이터 시각화 도구인 TiChart를 만든다.
  • 데이터 가져오기, NL 상호작용, 즐겨찾기, 다중 LLM 전환을 지원하는 웹 UI를 제공한다.
  • 생산환경과 같은 설정에서 두 개의 실제 데이터셋 (Financial 및 Bird)으로 엔드투엔드를 시연하고 지원 데모 자료를 게시한다.

실험 결과

연구 질문

  • RQ1TiInsight가 HDC 가이드 컨텍스트를 통해 자연어 질문에서 다양한 도메인의 정확한 SQL을 생성할 수 있는가?
  • RQ2질문 명확화 및 분해가 탐색적 데이터 작업에서 불명확한 사용자 의도를 얼마나 잘 처리하는가?
  • RQ3매핑-리듀스 프롬프트 프로세스와 자체 정제 체인을 갖춘 두 단계 TiSQL이 전통적인 프롬프트 기반 방법보다 정확성과 효율성을 향상시키는가?
  • RQ4TiChart가 복잡하고 다중 하위 작업 탐색에 대해 적합한 시각화를 신뢰할 수 있게 추천하는가?
  • RQ5PingCAP와 같은 생산 환경에서 대표 데이터셋에 대해 TiInsight의 실용성과 성능은 어떠한가?

주요 결과

  • TiInsight는 NL 입력에서 SQL 실행 및 GUI를 통한 시각화까지 엔드투엔드 EDA 워크플로를 시연한다.
  • HDC 생성을 통해 스키마, 테이블 및 관계를 요약하여 SQL 생성을 안내함으로써 교차 도메인 이해를 가속화한다.
  • TiSQL은 거칠게-정교한 스키마 필터링과 매핑-리듀스 프롬프트 프로세스 및 자체 정제 체인을 결합하여 SQL 오류를 줄인다.
  • TiChart는 규칙 기반 휴리스틱과 LLM을 혼합하여 다중 하위 작업 탐색에 적합한 시각화 유형을 선택한다.
  • 두 개의 실제 PingCAP 데이터셋(Financial 및 Bird)에서 시스템을 시연하여 실용적인 배포 가능성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.