Skip to main content
QUICK REVIEW

[논문 리뷰] How to Prompt LLMs for Text-to-SQL: A Study in Zero-shot, Single-domain, and Cross-domain Settings

Shuaichen Chang, Eric Fosler‐Lussier|arXiv (Cornell University)|2023. 05. 19.
Topic Modeling인용 수 11
한 줄 요약

본 논문은 제로샷, 단일 도메인, 교차 도메인 설정에서 텍스트-투-SQL 프롬프트 구성의 체계적 평가를 수행하여, 테이블 관계 및 내용, 프롬프트 정규화, 및 도메인 내 시연이 LLM 성능에 크게 영향을 미치며, 제로샷 시나리오에서 Codex가 일반적으로 ChatGPT보다 우수하고 교차 도메인 프롬프트에서 프롬프트 길이에 최적점이 있음을 보여준다.

ABSTRACT

Large language models (LLMs) with in-context learning have demonstrated remarkable capability in the text-to-SQL task. Previous research has prompted LLMs with various demonstration-retrieval strategies and intermediate reasoning steps to enhance the performance of LLMs. However, those works often employ varied strategies when constructing the prompt text for text-to-SQL inputs, such as databases and demonstration examples. This leads to a lack of comparability in both the prompt constructions and their primary contributions. Furthermore, selecting an effective prompt construction has emerged as a persistent problem for future research. To address this limitation, we comprehensively investigate the impact of prompt constructions across various settings and provide insights into prompt constructions for future text-to-SQL studies.

연구 동기 및 목표

  • 데이터베이스 프롬트 표현(schema, 관계, 및 내용)이 제로샷, 단일 도메인, 및 교차 도메인 텍스트-투-SQL 성능에 미치는 영향을 평가한다.
  • 설정에 걸쳐 도메인 내외 시연이 LLM 능력에 미치는 영향을 평가한다.
  • 텍스트-투-SQL에서 LLM 정확도를 향상시키는 효과적인 프롬트 구성 관행(정규화, 콘텐츠 제시)을 식별한다.
  • 향후 텍스트-투-SQL 연구에서 프롬트 설계에 대한 실행 가능한 권고안을 제시한다.]
  • method: [
  • 시스템적으로 스키마 전용에서 관계 및 내용을 포함한 강화된 것까지 여러 데이터베이스 프롬프트 구성을 체계적으로 비교한다.
  • 토큰 가변성과 대소문자 민감도를 줄이기 위해 프롬프트 텍스트를 정규화한다.
  • 크로스 도메인 벤치마크로 Spider를 사용하고 Codex와 ChatGPT로 평가한다.
  • 다양한 시연 전략으로 제로샷, 단일 도메인, 교차 도메인 인-컨텍스트 학습 설정을 탐색한다.
  • 시연 수량과 프롬프트 길이가 성능에 미치는 영향을 분석한다.
  • 실행 정확도(EX)를 평가 지표로 사용하여 결과를 제시한다.

제안 방법

  • Systematically compare multiple database prompt constructions (schema-only to enriched with relationships and content).
  • Normalize prompt text to reduce token variability and case sensitivity.
  • Use Spider as the cross-domain benchmark and evaluate with Codex and ChatGPT.
  • Explore zero-shot, single-domain, and cross-domain in-context learning settings with varying demonstration strategies.
  • Analyze the effect of demonstration quantity and prompt length on performance.
  • Present results with execution accuracy (EX) as the evaluation metric.

실험 결과

연구 질문

  • RQ1데이터베이스 스키마 및 콘텐츠의 prompts에서 서로 다른 표현이 제로샷, 단일 도메인, 교차 도메인 텍스트-투-SQL 성능에 어떤 영향을 미치는가?
  • RQ2설정에 걸쳐 도메인 내 시연과 도메인 외 시연이 LLM 프롬팅에서 어떤 역할을 하는가?
  • RQ3교차 도메인 프롬 prompting에서 프롬프트 길이가 LLM 성능에 어떤 영향을 미치며, 최적점이 있는가?
  • RQ4프롬프트에 테이블 관계(Foreign Keys) 및 콘텐츠(샘플 행)의 포함이 결과를 개선하는가, 그리고 이것이 시연과 어떻게 상호작용하는가?

주요 결과

모델프롬프트 구성# 토큰 (U|N)실행 정확도 (EX, U|N)
Codex테이블 스키마148 | 14769.0 | 71.9
CodexColumns=[]169 | 16770.2 | 71.8
Codex+ForeignKey226 | 22372.3 | 73.1
CodexCreateTable474 | 35671.8 | 73.1
Codex+Relationship+Content1089 | 101370.9 | 71.9
CodexCreateTable+InsertRow 3964 | 87270.9 | 71.9
CodexCreateTable+SelectRow 3820 | 77073.3 | 74.1
CodexCreateTable+SelectCol 3958 | 83175.0 | 75.7
ChatGPTTable Schema118 | 11568.8 | 70.5
ChatGPTColumns=[]137 | 13568.3 | 69.1
ChatGPT+ForeignKey178 | 17472.9 | 71.2
ChatGPTCreateTable339 | 25470.7 | 71.7
ChatGPT+Relationship+Content964 | 87271.8 | 71.8
ChatGPTCreateTable+InsertRow 3761 | 67471.8 | 72.1
ChatGPTCreateTable+SelectRow 3761 | 67471.8 | 72.1
ChatGPTCreateTable+SelectCol 3799 | 71273.3 | 73.6
  • 프롬프트에서의 테이블 관계와 콘텐츠는 효과적인 프롬 prompting에 중요하며, 정규화는 종종 결과를 개선한다.
  • 도메인 내 시연은 성능을 향상시키고 프롬프트 표현에 대한 민감도를 감소시킬 수 있지만, 테이블 콘텐츠 지식을 완전히 대체할 수는 없다.
  • 프롬프트 길이는 교차 도메인 설정에서 상당한 영향을 미치며, Codex에 대한 최적점이 관찰되고, 토큰 길이 임계치를 넘으면 성능이 저하된다.
  • Codex는 일반적으로 제로샷 텍스트-투-SQL에서 ChatGPT를 능가한다.
  • 단일 도메인 설정에서 도메인 내 시연을 늘리면 도움이 되고, 테이블 콘텐츠는 여전히 필수적이다; 다만 시연이 늘어날수록 정확한 콘텐츠 제시의 중요성은 감소한다.
  • 도메인 외 시연은 교차 도메인 프롬 prompting에서 능력을 향상시키지만 데이터베이스 특유의 지식을 제공하진 않으며, 신중한 데이터베이스 프롬프트 설계가 여전히 중요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.