[論文レビュー] EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records
EHRSQL は、構造化された EHR データ向けの大規模なテキスト-to-SQL ベンチマークを導入し、質問を MIMIC-III および eICU にリンクさせ、時制を意識したクエリと回答不能なケースを用意して信頼できる意味解析を評価します。
We present a new text-to-SQL dataset for electronic health records (EHRs). The utterances were collected from 222 hospital staff members, including physicians, nurses, and insurance review and health records teams. To construct the QA dataset on structured EHR data, we conducted a poll at a university hospital and used the responses to create seed questions. We then manually linked these questions to two open-source EHR databases, MIMIC-III and eICU, and included various time expressions and held-out unanswerable questions in the dataset, which were also collected from the poll. Our dataset poses a unique set of challenges: the model needs to 1) generate SQL queries that reflect a wide range of needs in the hospital, including simple retrieval and complex operations such as calculating survival rate, 2) understand various time expressions to answer time-sensitive questions in healthcare, and 3) distinguish whether a given question is answerable or unanswerable. We believe our dataset, EHRSQL, can serve as a practical benchmark for developing and assessing QA models on structured EHR data and take a step further towards bridging the gap between text-to-SQL research and its real-life deployment in healthcare. EHRSQL is available at https://github.com/glee4810/EHRSQL.
研究の動機と目的
- 現場の病院情報ニーズを反映するため、職種を超えた222名の病院スタッフから質問を収集する。
- 実務的な QA を可能にするため、質問を構造化データ上で扱えるよう、2つのオープンソース EHR データベース(MIMIC-III および eICU)にリンクする。
- 医療現場のワークフローを反映する多様な時制表現を含む時制に敏感な質問を組み込む。
- 回答生成だけでなくモデルの信頼性と棄却を評価するため、回答不能な質問を含める。
提案手法
- 病院のアンケートを通じて現実の質問を収集し、それらを解答可能・解答不能のテンプレートにテンプレ化する。
- NL および SQL 表現のための複数表現タイプ・単位・間隔を含む3種類の時制フィルターを設計する(グローバル、 Within、 exact)。
- MIMIC-III および eICU の SQL クエリを手動で注釈付けし、EHR スキーマを反映するために広範な JOIN よりネストされたクエリを優先する。
- テンプレートの言語的多様性を高めるため、人間による言い換えと品質フィルタリングを伴う ML ベースのバック-translation を用いて paraphrase を実施する。
- 解答可能性の認識と実行可能な SQL 正確さを同時に評価する信頼できる意味解析タスクを導入する。

実験結果
リサーチクエスチョン
- RQ1病院スタッフの質問を MIMIC-III および eICU のスキーマ上の SQL クエリへどれだけ正確に翻訳できるか?
- RQ2データセットは多様な時制表現と間隔を持つ時制敏感な医療質問をサポートできるか?
- RQ3モデルは解答不能な質問を正しく識別しデータベースへ問い合わせを控えることができるか?
- RQ4医療分野のテキスト-to-SQL におけるスキーマ情報の影響はどれほどか?
- RQ5最先端の意味解析器は医療分野へ適用した際、複雑な EHR クエリをどう処理するか?
主な発見
- EHRSQL は 2 つのデータベースにわたり 24K の質問-SQL ペアを時制認識と回答不能な事例とともに組み合わせている。
- ベースラインモデル(例:T5 系列)は性能が異なり、分位点ベースの不確実性閾値が検証・テスト時の F1 および実行指標を最大化する。
- Spider ベースのモデルから EHRSQL へのゼロショットな跨分野転送は限られており、医療分野での SQL 生成にはドメイン固有の課題がある。
- 時制表現の包含はクエリの複雑さを大きく高め、time-aware SQL パターン(strftime、datetime、NULL 処理)が必要となる。
- EHRSQL は未回答の質問や質問元のスキーマ非依存性など、現実性のいくつかの軸で類似データセットを上回っている。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。