[論文レビュー] How to Prompt LLMs for Text-to-SQL: A Study in Zero-shot, Single-domain, and Cross-domain Settings
本論文は、ゼロショット、単一ドメイン、クロスドメインの設定におけるテキスト-to-SQL のプロンプト構築を系統的に評価し、テーブルのリレーションシップと内容、プロンプトの正規化、ドメイン内デモがLLMの性能に大きく影響することを示す。Codexはゼロショットの場面でChatGPTを通常上回し、クロスドメインプロンプトにはプロンプト長の適切な最適長さ(最適な長さのポイント)が存在する。
Large language models (LLMs) with in-context learning have demonstrated remarkable capability in the text-to-SQL task. Previous research has prompted LLMs with various demonstration-retrieval strategies and intermediate reasoning steps to enhance the performance of LLMs. However, those works often employ varied strategies when constructing the prompt text for text-to-SQL inputs, such as databases and demonstration examples. This leads to a lack of comparability in both the prompt constructions and their primary contributions. Furthermore, selecting an effective prompt construction has emerged as a persistent problem for future research. To address this limitation, we comprehensively investigate the impact of prompt constructions across various settings and provide insights into prompt constructions for future text-to-SQL studies.
研究の動機と目的
- データベースプロンプト表現(スキーマ、リレーション、内容)がゼロショット、単一ドメイン、クロスドメインのテキスト-to-SQL性能にどう影響するかを評価する。
- 各設定におけるデモンストレーション(ドメイン内およびドメイン外)の影響を評価する。
- テキスト-to-SQLにおけるLLMの精度向上のための、正規化や内容の提示といった効果的なプロンプト構築実践を特定する。
- 今後のテキスト-to-SQL研究に向けた実用的なプロンプト設計の推奨を提供する。
提案手法
- スキーマのみからリレーションと内容を含む強化版まで、複数のデータベースプロンプト構築を系統的に比較する。
- トークンのばらつきと大文字小文字の感度を低減するためにプロンプト文を正規化する。
- クロスドメインのベンチマークとしてSpiderを用い、CodexとChatGPTで評価する。
- さまざまなデモンストレーション戦略でゼロショット、単一ドメイン、クロスドメインのコンテキスト学習設定を探る。
- デモンストレーションの量とプロンプト長が性能に与える影響を分析する。
- 実行正確度(EX)を評価指標として結果を提示する。
実験結果
リサーチクエスチョン
- RQ1プロンプト内のデータベーススキーマと内容の異なる表現は、ゼロショット・単一ドメイン・クロスドメインのテキスト-to-SQL性能にどう影響するか?
- RQ2設定を問わず、ドメイン内デモとドメイン外デモの役割はLLMのテキスト-to-SQLへのプロンプト設計にどう影響するか?
- RQ3クロスドメインのプロンプトにおけるプロンプト長はLLMの性能にどう影響し、最適な長さはあるか?
- RQ4プロンプトへテーブルのリレーション(外部キー)と内容(サンプル行)を含めると結果は改善されるか、デモンストレーションとの相互作用はどうなるか?
主な発見
| Model | Prompt Construction | # Tokens (U|N) | Execution Accuracy (EX, U|N) |
|---|---|---|---|
| Codex | Table Schema | 148 | 147 | 69.0 | 71.9 |
| Codex | Columns=[] | 169 | 167 | 70.2 | 71.8 |
| Codex | +ForeignKey | 226 | 223 | 72.3 | 73.1 |
| Codex | CreateTable | 474 | 356 | 71.8 | 73.1 |
| Codex | +Relationship+Content | 1089 | 1013 | 70.9 | 71.9 |
| Codex | CreateTable+InsertRow 3 | 964 | 872 | 70.9 | 71.9 |
| Codex | CreateTable+SelectRow 3 | 820 | 770 | 73.3 | 74.1 |
| Codex | CreateTable+SelectCol 3 | 958 | 831 | 75.0 | 75.7 |
| ChatGPT | Table Schema | 118 | 115 | 68.8 | 70.5 |
| ChatGPT | Columns=[] | 137 | 135 | 68.3 | 69.1 |
| ChatGPT | +ForeignKey | 178 | 174 | 72.9 | 71.2 |
| ChatGPT | CreateTable | 339 | 254 | 70.7 | 71.7 |
| ChatGPT | +Relationship+Content | 964 | 872 | 71.8 | 71.8 |
| ChatGPT | CreateTable+InsertRow 3 | 761 | 674 | 71.8 | 72.1 |
| ChatGPT | CreateTable+SelectRow 3 | 761 | 674 | 71.8 | 72.1 |
| ChatGPT | CreateTable+SelectCol 3 | 799 | 712 | 73.3 | 73.6 |
- プロンプト内のテーブルリレーションと内容は効果的なプロンプト作成にとって重要であり、正規化はしばしば結果を改善する。
- ドメイン内デモは性能を向上させ、プロンプト表現への感度を低減できるが、テーブル内容知識を完全に置換することはできない。
- クロスドメイン設定ではプロンプト長が大きく影響し、Codexにとって最適な長さが観察され、トークン長の閾値を超えると性能が低下する。
- Codexはプロンプト構成を問わず、ゼロショットのテキスト-to-SQLで一般にChatGPTを上回る。
- 単一ドメイン設定ではドメイン内デモを増やすと有利で、テーブル内容は依然として不可欠である。ただし、デモが増えるにつれて正確な内容の提示は重要度が低くなる。
- ドメイン外デモはクロスドメインのプロンプト能力を高めるが、データベース固有の知識を提供するわけではない。従って、データベースプロンプト設計は依然として重要である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。