[논문 리뷰] APEX-SQL: Talking to the data via Agentic Exploration for Text-to-SQL
APEX-SQL은 Text-to-SQL에 대해 agentic 탐색을 도입하여 현실 데이터에 근거한 추론을 강화하고, 대규모 엔터프라이즈 데이터베이스에서 스키마 연결 및 SQL 생성을 개선합니다. 이는 가설-검증 루프를 논리적 계획, 이중 경로 가지치기, 병렬 데이터 프로파일링, 그리고 결정적 가이던스 검색을 사용하여 BIRD와 Spider 2.0-Snow에서 기준선을 능가합니다.
Text-to-SQL systems powered by Large Language Models have excelled on academic benchmarks but struggle in complex enterprise environments. The primary limitation lies in their reliance on static schema representations, which fails to resolve semantic ambiguity and scale effectively to large, complex databases. To address this, we propose APEX-SQL, an Agentic Text-to-SQL Framework that shifts the paradigm from passive translation to agentic exploration. Our framework employs a hypothesis-verification loop to ground model reasoning in real data. In the schema linking phase, we use logical planning to verbalize hypotheses, dual-pathway pruning to reduce the search space, and parallel data profiling to validate column roles against real data, followed by global synthesis to ensure topological connectivity. For SQL generation, we introduce a deterministic mechanism to retrieve exploration directives, allowing the agent to effectively explore data distributions, refine hypotheses, and generate semantically accurate SQLs. Experiments on BIRD (70.65% execution accuracy) and Spider 2.0-Snow (51.01% execution accuracy) demonstrate that APEX-SQL outperforms competitive baselines with reduced token consumption. Further analysis reveals that agentic exploration acts as a performance multiplier, unlocking the latent reasoning potential of foundation models in enterprise settings. Ablation studies confirm the critical contributions of each component in ensuring robust and accurate data analysis.
연구 동기 및 목표
- 대규모 복잡한 데이터베이스에서 Text-to-SQL에 대해 수동 스키마 기반 프롬프트에서 능동적이고 데이터에 근거한 추론으로의 전환을 촉진한다.
제안 방법
- 스키마 연결과 SQL 생성을 모두 위한 가설-검증 루프를 갖춘 통합형 에이전틱 Text-to-SQL 프레임워크를 제안한다.
실험 결과
연구 질문
- RQ1현실 데이터에 근거한 에이전틱 탐색이 대규모 엔터프라이즈 데이터베이스에서 스키마 연결 재현율과 정밀도를 향상시킬 수 있는가?
- RQ2에이전틱 접근 방식이 엔터프라이즈 규모 벤치마크에서 기준선 대비 SQL 생성 정확도와 효율성을 향상시키는가?
주요 결과
- APEX-SQL은 BIRD와 Spider 벤치마크에서 최첨단 스키마 연결 성능을 달성했다(예: 부분집합에서 높은 엄밀 재현율).
- SQL 생성에서 APEX-SQL은 BIRD-Dev 및 Spider 2.0-Snow에서 실행 정확도에서 경쟁 기반을 능가하고 토큰 소비가 현저히 감소했다.
- 에이전틱 탐색은 퍼포먼스 멀티플라이어로 작용하여 엔터프라이즈 환경에서 기반 모델의 잠재적 추론 능력을 끌어올린다.
- 변형 연구는 논리적 계획, 가지치기, 결정적 가이드의 중요성을 확인하여 강건한 데이터 분석 및 쿼리 합성에 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.