[論文レビュー] Divide and Prompt: Chain of Thought Prompting for Text-to-SQL
本論文は Divide-and-Prompt (DnP) プロンプトを提案し、Text-to-SQLタスクをサブタスクに分解し、それぞれにチェーン・オブ・ソート(CoT)推論を適用することで、特に Spider の難易度が高いタスクにおいて GPT-3.5-Turbo の実行精度を大幅に向上させる。
Chain-of-thought (CoT) prompting combined with large language models (LLMs) have achieved encouraging results on complex reasoning tasks. Text-to-SQL is a critical semantic parsing task that converts natural language questions into SQL statements, involving a complex reasoning process. However, there is little work about using CoT prompting to activate LLM's reasoning capabilities on Text-to-SQL tasks. In this work, we propose a new paradigm for prompting Text-to-SQL tasks, called Divide-and-Prompt, which first divides the task into subtasks, and then approach each subtask through CoT. We present 3 prompting-based methods to enhance the Text-to-SQL ability of LLMs. Experiments show that these prompts guide LLMs to generate Text-to-SQL with higher execution accuracy.
研究の動機と目的
- LLMの推論タスクとしてText-to-SQLを動機づけ、SQL生成におけるCoT promptingを探索する。
- LLMを自然言語クエリから正しいSQLを生成するよう導く3つのDnP prompting戦略を提案・評価する。
- SpiderデータセットにおけるDnPプロンプトの有効性を評価し、既存のベースラインおよびプロンプトと比較する。
提案手法
- タスクをサブタスクに分解し、それぞれのサブタスクにチェーン・オブ・ソート推論を適用する。
- 3つのDnP手法:Clause-by-Clause DnP(CC-DnP)、Schema Linking DnP(SL-DnP)、Generate and Refine DnP(GR-DnP)。
- 専門知識のないユーザーにも適した自然言語のみを用いたプロンプトを示す。
実験結果
リサーチクエスチョン
- RQ1Divide-and-Prompt promptingは標準プロンプトに対してText-to-SQLの精度を改善できるか。
- RQ2最適なDnPの実装はCC-DnP、SL-DnP、GR-DnPのどれで、どんな条件下で最も良い性能を示すか。
- RQ3Spiderの易・難・超難のText-to-SQLタスクに対してDnPプロンプトはどう機能するか。
- RQ4DnPの有効性には少数ショットが必須か、ゼロショットはどうか。
主な発見
| Method | VA (Valid SQL %) | EX (Execution Accuracy %) | TS (Test-Suite Accuracy %) |
|---|---|---|---|
| Finetuned T5-3B + PICARD | 98.4 | 79.3 | 69.4 |
| GRAPHIX + PICARD | 98.8 | 80.5 | 70.3 |
| RESDSQL + NatSQL | 99.1 | 84.1 | 73.5 |
| Rajkumar et al. (2022) | 91.6 | 67.0 | 55.1 |
| Liu et al. (2023) | 97.7 | 70.1 | 60.1 |
| GPT-3.5 (zero-shot) | 97.9 | 70.8 | 62.3 |
| GPT-3.5 (few-shot) | 98.2 | 72.9 | 62.6 |
| GPT-3.5 + normal CoT | 92.6 | 60.3 | 49.5 |
| GPT-3.5 + CC-DnP | 97.8 | 74.3 | 63.0 |
| GPT-3.5 + RL-DnP | 99.1 | 74.7 | 65.1 |
| GPT-3.5 + GR-DnP | 98.6 | 75.1 | 65.4 |
- DnPプロンプトは標準のゼロショット promptingより実行精度を4.3%向上させる。
- 難易度の高いText-to-SQLタスクではGR-DnPが標準 promptingと比較してEXを最大で10.8%改善;超難タスクでは約3%の改善。
- 通常のCoT promptingだけではSQLの厳密な構文・構造のためSQL生成で性能が低下する。
- GR-DnPをStage-1でSL-DnP、Stage-2でリファインメントとして採用すると、少数-shot設定でGPT-3.5と強力な結果を示す。
- ゼロショット promptingは推論ステップの実行性が限定的で、CoTベースのプロンプトの有効性を低下させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。