[논문 리뷰] How to Prompt LLMs for Text-to-SQL: A Study in Zero-shot, Single-domain, and Cross-domain Settings
본 논문은 제로샷, 단일 도메인, 교차 도메인 설정에서 텍스트-투-SQL 프롬프트 구성의 체계적 평가를 수행하여, 테이블 관계 및 내용, 프롬프트 정규화, 및 도메인 내 시연이 LLM 성능에 크게 영향을 미치며, 제로샷 시나리오에서 Codex가 일반적으로 ChatGPT보다 우수하고 교차 도메인 프롬프트에서 프롬프트 길이에 최적점이 있음을 보여준다.
Large language models (LLMs) with in-context learning have demonstrated remarkable capability in the text-to-SQL task. Previous research has prompted LLMs with various demonstration-retrieval strategies and intermediate reasoning steps to enhance the performance of LLMs. However, those works often employ varied strategies when constructing the prompt text for text-to-SQL inputs, such as databases and demonstration examples. This leads to a lack of comparability in both the prompt constructions and their primary contributions. Furthermore, selecting an effective prompt construction has emerged as a persistent problem for future research. To address this limitation, we comprehensively investigate the impact of prompt constructions across various settings and provide insights into prompt constructions for future text-to-SQL studies.
연구 동기 및 목표
- 데이터베이스 프롬트 표현(schema, 관계, 및 내용)이 제로샷, 단일 도메인, 및 교차 도메인 텍스트-투-SQL 성능에 미치는 영향을 평가한다.
- 설정에 걸쳐 도메인 내외 시연이 LLM 능력에 미치는 영향을 평가한다.
- 텍스트-투-SQL에서 LLM 정확도를 향상시키는 효과적인 프롬트 구성 관행(정규화, 콘텐츠 제시)을 식별한다.
- 향후 텍스트-투-SQL 연구에서 프롬트 설계에 대한 실행 가능한 권고안을 제시한다.]
- method: [
- 시스템적으로 스키마 전용에서 관계 및 내용을 포함한 강화된 것까지 여러 데이터베이스 프롬프트 구성을 체계적으로 비교한다.
- 토큰 가변성과 대소문자 민감도를 줄이기 위해 프롬프트 텍스트를 정규화한다.
- 크로스 도메인 벤치마크로 Spider를 사용하고 Codex와 ChatGPT로 평가한다.
- 다양한 시연 전략으로 제로샷, 단일 도메인, 교차 도메인 인-컨텍스트 학습 설정을 탐색한다.
- 시연 수량과 프롬프트 길이가 성능에 미치는 영향을 분석한다.
- 실행 정확도(EX)를 평가 지표로 사용하여 결과를 제시한다.
제안 방법
- Systematically compare multiple database prompt constructions (schema-only to enriched with relationships and content).
- Normalize prompt text to reduce token variability and case sensitivity.
- Use Spider as the cross-domain benchmark and evaluate with Codex and ChatGPT.
- Explore zero-shot, single-domain, and cross-domain in-context learning settings with varying demonstration strategies.
- Analyze the effect of demonstration quantity and prompt length on performance.
- Present results with execution accuracy (EX) as the evaluation metric.
실험 결과
연구 질문
- RQ1데이터베이스 스키마 및 콘텐츠의 prompts에서 서로 다른 표현이 제로샷, 단일 도메인, 교차 도메인 텍스트-투-SQL 성능에 어떤 영향을 미치는가?
- RQ2설정에 걸쳐 도메인 내 시연과 도메인 외 시연이 LLM 프롬팅에서 어떤 역할을 하는가?
- RQ3교차 도메인 프롬 prompting에서 프롬프트 길이가 LLM 성능에 어떤 영향을 미치며, 최적점이 있는가?
- RQ4프롬프트에 테이블 관계(Foreign Keys) 및 콘텐츠(샘플 행)의 포함이 결과를 개선하는가, 그리고 이것이 시연과 어떻게 상호작용하는가?
주요 결과
| 모델 | 프롬프트 구성 | # 토큰 (U|N) | 실행 정확도 (EX, U|N) |
|---|---|---|---|
| Codex | 테이블 스키마 | 148 | 147 | 69.0 | 71.9 |
| Codex | Columns=[] | 169 | 167 | 70.2 | 71.8 |
| Codex | +ForeignKey | 226 | 223 | 72.3 | 73.1 |
| Codex | CreateTable | 474 | 356 | 71.8 | 73.1 |
| Codex | +Relationship+Content | 1089 | 1013 | 70.9 | 71.9 |
| Codex | CreateTable+InsertRow 3 | 964 | 872 | 70.9 | 71.9 |
| Codex | CreateTable+SelectRow 3 | 820 | 770 | 73.3 | 74.1 |
| Codex | CreateTable+SelectCol 3 | 958 | 831 | 75.0 | 75.7 |
| ChatGPT | Table Schema | 118 | 115 | 68.8 | 70.5 |
| ChatGPT | Columns=[] | 137 | 135 | 68.3 | 69.1 |
| ChatGPT | +ForeignKey | 178 | 174 | 72.9 | 71.2 |
| ChatGPT | CreateTable | 339 | 254 | 70.7 | 71.7 |
| ChatGPT | +Relationship+Content | 964 | 872 | 71.8 | 71.8 |
| ChatGPT | CreateTable+InsertRow 3 | 761 | 674 | 71.8 | 72.1 |
| ChatGPT | CreateTable+SelectRow 3 | 761 | 674 | 71.8 | 72.1 |
| ChatGPT | CreateTable+SelectCol 3 | 799 | 712 | 73.3 | 73.6 |
- 프롬프트에서의 테이블 관계와 콘텐츠는 효과적인 프롬 prompting에 중요하며, 정규화는 종종 결과를 개선한다.
- 도메인 내 시연은 성능을 향상시키고 프롬프트 표현에 대한 민감도를 감소시킬 수 있지만, 테이블 콘텐츠 지식을 완전히 대체할 수는 없다.
- 프롬프트 길이는 교차 도메인 설정에서 상당한 영향을 미치며, Codex에 대한 최적점이 관찰되고, 토큰 길이 임계치를 넘으면 성능이 저하된다.
- Codex는 일반적으로 제로샷 텍스트-투-SQL에서 ChatGPT를 능가한다.
- 단일 도메인 설정에서 도메인 내 시연을 늘리면 도움이 되고, 테이블 콘텐츠는 여전히 필수적이다; 다만 시연이 늘어날수록 정확한 콘텐츠 제시의 중요성은 감소한다.
- 도메인 외 시연은 교차 도메인 프롬 prompting에서 능력을 향상시키지만 데이터베이스 특유의 지식을 제공하진 않으며, 신중한 데이터베이스 프롬프트 설계가 여전히 중요하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.