[論文レビュー] Memo-SQL: Structured Decomposition and Experience-Driven Self-Correction for Training-Free NL2SQL
トレーニングフリーの NL2SQL は、歴史的なエラー–修正信号を利用して demonstrations のみを正すのではなく、構造化分解と経験主義自己修正を用いる。
Existing NL2SQL systems face two critical limitations: (1) they rely on in-context learning with only correct examples, overlooking the rich signal in historical error-fix pairs that could guide more robust self-correction; and (2) test-time scaling approaches often decompose questions arbitrarily, producing near-identical SQL candidates across runs and diminishing ensemble gains. Moreover, these methods suffer from a stark accuracy-efficiency trade-off: high performance demands excessive computation, while fast variants compromise quality. We present Memo-SQL, a training-free framework that addresses these issues through two simple ideas: structured decomposition and experience-aware self-correction. Instead of leaving decomposition to chance, we apply three clear strategies, entity-wise, hierarchical, and atomic sequential, to encourage diverse reasoning. For correction, we build a dynamic memory of both successful queries and historical error-fix pairs, and use retrieval-augmented prompting to bring relevant examples into context at inference time, no fine-tuning or external APIs required. On BIRD, Memo-SQL achieves 68.5% execution accuracy, setting a new state of the art among open, zero-fine-tuning methods, while using over 10 times fewer resources than prior TTS approaches.
研究の動機と目的
- トレーニングフリーの NL2SQL を動機づける。過去のエラー修正信号を利用し、デモだけに頼らない。
- NL2SQL を構造化された分割統治タスクとして formalize し、多様な推論パスを促進。
- 推論時に出力を洗練させる経験駆動の retrieval-augmented self-correction メモリを導入。
- オープンでゼロファインチューニングの方法の中で、効率を改善しつつ BIRD における実行精度を最先端に。
提案手法
- 三つの分解戦略(エンティティ単位、階層、原子列挙)を適用し、並行して多様なサブクエリを生成。
- ReAct+Reflect ループを用いてサブクエリを推論し、サブSQLを生成、実行結果を観察し、誤りを反省して修正。
- (質問、正しい SQL、誤った SQL、エラータイプ、修正ヒント) の動的なエラー修正メモリを維持し、類似の失敗を retrieved して文脈内 refinements を導く。
- 数ショットの文脈内プロンプトにより、CTE、フラット JOIN、ネストされた三つのエンドツーエンドSQL候補を生成し、自己整合性スコアで選択。
- 洗練のための二段階メモリ検索を実装: top-k retrieved error–correction ペア、エラータイプで重複排除、その後 consensus まで critic-refine ループを適用。
- 評価は BIRD、SPIDER、CHESS-SDS のベンチマークで実施;トレーニングフリーのオープン手法とベースラインを比較;効率と精度を分析。

実験結果
リサーチクエスチョン
- RQ1質問の構造化によって明示的に分解することでトレーニングフリーの NL2SQL が競争力ある精度を達成できるか。
- RQ2retrieval-augmented な文脈学習を用いた歴史的なエラー–修正経験を活用して、静的デモンストレーションを超えた自己修正を改善できるか。
- RQ3構造化分解と反復的修正が NL2SQL の実行精度と効率に与える影響はどの程度か。
- RQ4別のデータセットから構築したエラー修正メモリを用いて、Memo-SQL はデータセット間(BIRD、Spider、CHESS-SDS)でどの程度一般化するか。
主な発見
- Memo-SQL は BIRD dev-new におけるオープンでゼロファインチューニングの NL2SQL メソッドの実行精度で最先端を達成。
- 主要な TTS アプローチと比較して計算オーバーヘッドを一桁以上削減。
- 成功と失敗の履歴の双方を活用した retrieval-augmented 自己修正は、静的デモンストレーションよりも堅牢性を向上させる。
- 三つの分解戦略は多様な推論パスを促進し、Best-of-N 候補の統合を可能にする。
- モデル規模を超えて、Memo-SQL は精度を維持しつつ効率を大幅に向上させる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。