[論文レビュー] CBR-to-SQL: Rethinking Retrieval-based Text-to-SQL using Case-based Reasoning in the Healthcare Domain
CBR-to-SQLは、マスクされたケーステンプレートと別個のエンティティグラウンディングステップを用いた二段階取得フレームワークを導入し、医療分野の自然言語質問をSQLへ翻訳。データ不足下での状態最先端の論理形式精度と堅牢な一般化を達成。
Extracting insights from Electronic Health Record (EHR) databases often requires SQL expertise, creating a barrier for healthcare decision-making and research. While a promising approach is to use Large Language Models (LLMs) to translate natural language questions to SQL via Retrieval-Augmented Generation (RAG), adapting this approach to the medical domain is non-trivial. Standard RAG relies on single-step retrieval from a static pool of examples, which struggles with the variability and noise of medical terminology and jargon. This often leads to anti-patterns such as expanding the task demonstration pool to improve coverage, which in turn introduces noise and scalability problems. To address this, we introduce CBR-to-SQL, a framework inspired by Case-Based Reasoning (CBR). It represents question-SQL pairs as reusable, abstract case templates and utilizes a two-stage retrieval process that first captures logical structure and then resolves relevant entities. Evaluated on MIMICSQL, CBR-to-SQL achieves state-of-the-art logical form accuracy and competitive execution accuracy. More importantly, it demonstrates higher sample efficiency and robustness than standard RAG approaches, particularly under data scarcity and retrieval perturbations.
研究の動機と目的
- 医療分野でSQLの専門知識がEHRデータアクセスの障壁となることを動機づける。
- 論理構造の検索とエンティティグラウンディングを切り離すケースベース推論(CBR)フレームワークを提案する。
- マスクされたケーステンプレートが再利用可能なパターンを可能にし、サンプル効率と堅牢性を向上させることを示す。
提案手法
- 質問-SQLペアをスキーマ固有のエンティティをマスクして抽象的なケーステンプレートに変換する(Case Retain)。
- 推論時に類似のマスク済みテンプレートを取得(Template Construction)し、LLMでドラフトSQLテンプレートを生成する。
- プレースホルダエンティティをスキーマ認識型のルックアップ表に対してグラウンドする(Source Discovery)し、具体的なスキーマエンティティを埋めて実行可能なSQLを作成する。
- 論理構造とエンティティ解決を分離する二段階取得アプローチを用い、パターンとEHRグラウンディングのために別々のデータソースを活用する。
- CompleteおよびIncomplete Database設定でMIMICSQLを評価し、 retrieved cases への感度を評価する脆弱性指標を追加する。

実験結果
リサーチクエスチョン
- RQ1医療分野でのテキスト-to-SQLにおいて、二段階のケースベース取得フレームワークは標準的なRAGと比較してどのように機能するか?
- RQ2データ不足と取得摂動下で、マスキングとテンプレート化はサンプル効率と堅牢性を向上させるか?
- RQ3論理構造の検索とエンティティグラウンディングを分離することで精度と脆弱性にどのような影響があるか?
- RQ4CBR-to-SQLは不完全データ領域にRAGベースのベースラインと比較してどの程度一般化するか?
主な発見
| Method | Acc_EX | Acc_LF |
|---|---|---|
| SQLNet | 0.260 | 0.142 |
| PtrGen | 0.292 | 0.180 |
| Coarse2Fine | 0.378 | 0.496 |
| TREQS | 0.654 | 0.556 |
| RAG-to-SQL | 0.855 | 0.811 |
| CBR-to-SQL | 0.882 | 0.828 |
| MedTS | 0.899 | 0.784 |
| GE-SQL | 0.942 | – |
- CBR-to-SQLはComplete Database設定でAcc_EXがより高く、Acc_LFも高い(Acc_EX: 0.882対0.855、Acc_LF: 0.828対0.811)。
- CBR-to-SQLはMIMICSQLで最先端のAcc_LFを達成し、競合するAcc_EXも含めていくつかのベースラインを上回る(例:TREQS、Coarse2Fine、PtrGen、SQLNet)。
- Incomplete Database設定ではCBR-to-SQLがRAG-to-SQLを大きくリード(Acc_EX: 0.842対0.777、Acc_LF: 0.780対0.747)。
- CBR-to-SQLはCompleteおよびIncompleteの両設定でExおよびLF指標においてRAG-to-SQLより脆弱性が小さい(例:Δbrittle_EX: 0.047対0.065、IncompleteDBのΔbrittle_EX: 0.049対0.068)。
- アブレーション研究により、Source Discoveryを除くと性能が劇的に低下する一方、MaskingベースのTemplate Constructionはノイズに対して弾力性を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。