[論文レビュー] CORE-T: COherent REtrieval of Tables for Text-to-SQL
CORE-T は訓練を要せず、オフラインによる強化と単発のLLMベース選択による互換性に基づく回復ステップで、テキスト→SQL のためにプールされたオープンブックコーパスから一貫性があり結合可能なテーブルのサブセットを取得する。
Realistic text-to-SQL workflows often require joining multiple tables. As a result, accurately retrieving the relevant set of tables becomes a key bottleneck for end-to-end performance. We study an open-book setting where queries must be answered over large, heterogeneous table collections pooled from many sources, without clean scoping signals such as database identifiers. Here, dense retrieval (DR) achieves high recall but returns many distractors, while join-aware alternatives often rely on extra assumptions and/or incur high inference overhead. We propose CORE-T, a scalable, training-free framework that enriches tables with LLM-generated purpose metadata and pre-computes a lightweight table-compatibility cache. At inference time, DR returns top-K candidates; a single LLM call selects a coherent, joinable subset, and a simple additive adjustment step restores strongly compatible tables. Across Bird, Spider, and MMQA, CORE-T improves table-selection F1 by up to 22.7 points while retrieving up to 42% fewer tables, improving multi-table execution accuracy by up to 5.0 points on Bird and 6.9 points on MMQA, and using 4-5x fewer tokens than LLM-intensive baselines.
研究の動機と目的
- 大規模で異種のテーブル集合に対して db_id シグナルなしで、関連性があり結合可能なテーブルを取得するボトルネックを解消する。
- 目的メタデータでオフラインにテーブルを強化し、結合性を近似する軽量なテーブル間互換性キャッシュを構築する。
- 高リコールを実現する_dense retrieval_、一度のLLMパスによる一貫性のあるサブセット選択、そして強く互換性のあるテーブルを回復する復元ステップを用いた、スケーラブルなオンラインパイプラインを提供する。
提案手法
- LLM生成の目的説明と5行Markdownスナップショットを用いてオフラインでテーブルを強化し、密な検索のためのテーブル埋め込みを作成する(埋め込み f_tbl)。
- ヘッダ埋め込み、値の重複、関係制約といったカラムレベルの信号を用いて、結合可能性を近似するテーブル間互換性キャッシュ CS(t_i, t_j) を構築する。
- オンラインでは、強化埋め込みに対してトップKのテーブルを密な検索で取得する(RS(q,t) = cosine(e_q, e_t))。
- 単独のLLMパスがスキーマ分析者として機能し、提供された互換性証拠とサンプル化されたテーブルメタデータを用いてトップK候補の中から一貫性のある結合可能なサブセットを選択する。
- 付加的な調整ステップで元のトップKから強く互換性のあるテーブルを復元し、最終セット S(q) を得る。
- 全てのステップは訓練不要で、結合の一貫性を最大化しつつLLMの使用を最小化するよう設計されている。
実験結果
リサーチクエスチョン
- RQ1公開ブックの複数テーブル検索を、明示的な db_id やゴールド外部キーなしで結合可能にするにはどうすればよいか?
- RQ2オフライン強化と軽量なオンラインLLM選択が、プールされたコーパス上でテーブルの一貫性とエンドツーエンドのSQL実行を改善するか?
- RQ3互換性に基づく復元ステップは、リコールと下流のSQL精度にどのような影響を与えるか?
- RQ4CORE-T の効率は、オープンブック設定における反復的またはMIPベースの結合対応ベースラインと比べてどうか?
主な発見
- CORE-T は Bird、Spider、MMQA の各ベースラインと比較して、より少ないテーブルを取得しつつ、テーブル選択の精度とF1を改善した。
- 単一のLLM選択と軽量な復元ステップは、密な検索のみよりも一貫性のあるスキーマスライスとより良いマルチテーブル実行(EM ≥2T)をもたらした。
- CORE-T は異なるSQLジェネレータ上でマルチテーブル質問のエンドツーエンドSQL実行精度を高く達成し、oracleゴールドテーブル設定に対する余地を減少させた。
- 選択でのLLM使用を約4–5倍削減し、より重いマルチドラフトベースラインと比較して最大約5倍のトークン節約を示す。
- db_idやMIP最適化を必要とする結合対応手法と比較して、CORE-T は推論オーバーヘッドを大幅に低く抑えつつ、テーブルセット品質で競合または優位性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。