QUICK REVIEW

[논문 리뷰] How to Prompt LLMs for Text-to-SQL: A Study in Zero-shot, Single-domain, and Cross-domain Settings

Shuaichen Chang, Eric Fosler‐Lussier|arXiv (Cornell University)|2023. 05. 19.

Topic Modeling인용 수 11

한 줄 요약

본 논문은 제로샷, 단일 도메인, 교차 도메인 설정에서 텍스트-투-SQL 프롬프트 구성의 체계적 평가를 수행하여, 테이블 관계 및 내용, 프롬프트 정규화, 및 도메인 내 시연이 LLM 성능에 크게 영향을 미치며, 제로샷 시나리오에서 Codex가 일반적으로 ChatGPT보다 우수하고 교차 도메인 프롬프트에서 프롬프트 길이에 최적점이 있음을 보여준다.

ABSTRACT

Large language models (LLMs) with in-context learning have demonstrated remarkable capability in the text-to-SQL task. Previous research has prompted LLMs with various demonstration-retrieval strategies and intermediate reasoning steps to enhance the performance of LLMs. However, those works often employ varied strategies when constructing the prompt text for text-to-SQL inputs, such as databases and demonstration examples. This leads to a lack of comparability in both the prompt constructions and their primary contributions. Furthermore, selecting an effective prompt construction has emerged as a persistent problem for future research. To address this limitation, we comprehensively investigate the impact of prompt constructions across various settings and provide insights into prompt constructions for future text-to-SQL studies.

연구 동기 및 목표

데이터베이스 프롬트 표현(schema, 관계, 및 내용)이 제로샷, 단일 도메인, 및 교차 도메인 텍스트-투-SQL 성능에 미치는 영향을 평가한다.
설정에 걸쳐 도메인 내외 시연이 LLM 능력에 미치는 영향을 평가한다.
텍스트-투-SQL에서 LLM 정확도를 향상시키는 효과적인 프롬트 구성 관행(정규화, 콘텐츠 제시)을 식별한다.
향후 텍스트-투-SQL 연구에서 프롬트 설계에 대한 실행 가능한 권고안을 제시한다.]
method: [
시스템적으로 스키마 전용에서 관계 및 내용을 포함한 강화된 것까지 여러 데이터베이스 프롬프트 구성을 체계적으로 비교한다.
토큰 가변성과 대소문자 민감도를 줄이기 위해 프롬프트 텍스트를 정규화한다.
크로스 도메인 벤치마크로 Spider를 사용하고 Codex와 ChatGPT로 평가한다.
다양한 시연 전략으로 제로샷, 단일 도메인, 교차 도메인 인-컨텍스트 학습 설정을 탐색한다.
시연 수량과 프롬프트 길이가 성능에 미치는 영향을 분석한다.
실행 정확도(EX)를 평가 지표로 사용하여 결과를 제시한다.

제안 방법

Systematically compare multiple database prompt constructions (schema-only to enriched with relationships and content).
Normalize prompt text to reduce token variability and case sensitivity.
Use Spider as the cross-domain benchmark and evaluate with Codex and ChatGPT.
Explore zero-shot, single-domain, and cross-domain in-context learning settings with varying demonstration strategies.
Analyze the effect of demonstration quantity and prompt length on performance.
Present results with execution accuracy (EX) as the evaluation metric.

실험 결과

연구 질문

RQ1데이터베이스 스키마 및 콘텐츠의 prompts에서 서로 다른 표현이 제로샷, 단일 도메인, 교차 도메인 텍스트-투-SQL 성능에 어떤 영향을 미치는가?
RQ2설정에 걸쳐 도메인 내 시연과 도메인 외 시연이 LLM 프롬팅에서 어떤 역할을 하는가?
RQ3교차 도메인 프롬 prompting에서 프롬프트 길이가 LLM 성능에 어떤 영향을 미치며, 최적점이 있는가?
RQ4프롬프트에 테이블 관계(Foreign Keys) 및 콘텐츠(샘플 행)의 포함이 결과를 개선하는가, 그리고 이것이 시연과 어떻게 상호작용하는가?

주요 결과

모델	프롬프트 구성	# 토큰 (U\|N)	실행 정확도 (EX, U\|N)
Codex	테이블 스키마	148 \| 147	69.0 \| 71.9
Codex	Columns=[]	169 \| 167	70.2 \| 71.8
Codex	+ForeignKey	226 \| 223	72.3 \| 73.1
Codex	CreateTable	474 \| 356	71.8 \| 73.1
Codex	+Relationship+Content	1089 \| 1013	70.9 \| 71.9
Codex	CreateTable+InsertRow 3	964 \| 872	70.9 \| 71.9
Codex	CreateTable+SelectRow 3	820 \| 770	73.3 \| 74.1
Codex	CreateTable+SelectCol 3	958 \| 831	75.0 \| 75.7
ChatGPT	Table Schema	118 \| 115	68.8 \| 70.5
ChatGPT	Columns=[]	137 \| 135	68.3 \| 69.1
ChatGPT	+ForeignKey	178 \| 174	72.9 \| 71.2
ChatGPT	CreateTable	339 \| 254	70.7 \| 71.7
ChatGPT	+Relationship+Content	964 \| 872	71.8 \| 71.8
ChatGPT	CreateTable+InsertRow 3	761 \| 674	71.8 \| 72.1
ChatGPT	CreateTable+SelectRow 3	761 \| 674	71.8 \| 72.1
ChatGPT	CreateTable+SelectCol 3	799 \| 712	73.3 \| 73.6

프롬프트에서의 테이블 관계와 콘텐츠는 효과적인 프롬 prompting에 중요하며, 정규화는 종종 결과를 개선한다.
도메인 내 시연은 성능을 향상시키고 프롬프트 표현에 대한 민감도를 감소시킬 수 있지만, 테이블 콘텐츠 지식을 완전히 대체할 수는 없다.
프롬프트 길이는 교차 도메인 설정에서 상당한 영향을 미치며, Codex에 대한 최적점이 관찰되고, 토큰 길이 임계치를 넘으면 성능이 저하된다.
Codex는 일반적으로 제로샷 텍스트-투-SQL에서 ChatGPT를 능가한다.
단일 도메인 설정에서 도메인 내 시연을 늘리면 도움이 되고, 테이블 콘텐츠는 여전히 필수적이다; 다만 시연이 늘어날수록 정확한 콘텐츠 제시의 중요성은 감소한다.
도메인 외 시연은 교차 도메인 프롬 prompting에서 능력을 향상시키지만 데이터베이스 특유의 지식을 제공하진 않으며, 신중한 데이터베이스 프롬프트 설계가 여전히 중요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.