Skip to main content
QUICK REVIEW

[論文レビュー] Grammar-based Neural Text-to-SQL Generation

Kevin Lin, Ben Bogin|arXiv (Cornell University)|May 30, 2019
Topic Modeling参考文献 34被引用数 45
ひとこと要約

文法ベースのデコードアプローチを用いたテキストからSQLへの変換を提案。動的なスキーマ依存の文法と実行時制約を使用し、ATISとSpiderデータセットで顕著な改善を達成。

ABSTRACT

The sequence-to-sequence paradigm employed by neural text-to-SQL models typically performs token-level decoding and does not consider generating SQL hierarchically from a grammar. Grammar-based decoding has shown significant improvements for other semantic parsing tasks, but SQL and other general programming languages have complexities not present in logical formalisms that make writing hierarchical grammars difficult. We introduce techniques to handle these complexities, showing how to construct a schema-dependent grammar with minimal over-generation. We analyze these techniques on ATIS and Spider, two challenging text-to-SQL datasets, demonstrating that they yield 14--18\% relative reductions in error.

研究の動機と目的

  • NLIDBを自然言語をSQLにマッピングする動機づけと、トークンベースのデコードを越えた文法ベースデコードの改善。
  • 現実世界のクエリの大部分をカバーしつつ過剰生成を最小化する浅い、スキーマ認識型のSQL文法を開発。
  • スキーマの変動性と見えないデータベースに対応するため、実行時制約と utterance/スキーマ駆動ルール生成を取り入れる。
  • ATISとSpiderでアプローチを評価し、従来のトークンベース手法より改善を示す。

提案手法

  • テーブルと列に対するスキーマ依存ルールを追加した基本SQL文法を提案。
  • 未見識別子に対応するため、グローバル(基礎文法)とリンク済み(発話特有)ルールを分離。
  • 結合や列の使用を正当化するよう、実行時制約を導入して有効なSQL構造を保証。
  • 識別子のリンク埋め込みを生成するエンコーダと文法ルールを選択するデコーダからなる二部構成のエンコーダ-デコーダを使用。
  • 監督付き学習のために、SQL ASTを生産規則の列へ線形化。
  • 発話トークンとデータベース識別子をヒューリスティックな文字列照合で結びつけ、型認識付きリンク付きルールを生成する。

実験結果

リサーチクエスチョン

  • RQ1スキーマ依存文法と実行時制約はテキスト→SQL生成における過剰生成を減らせるか?
  • RQ2発話トークンのデータベース識別子への動的リンクがATISとSpiderの精度にどのように影響するか?
  • RQ3グローバルルールとリンク済みルールを分離することは未知のスキーマへのモデルの一般化にどのように影響するか?
  • RQ4実行時制約は基礎文法のみを用いた場合より品質を改善するか?

主な発見

データセットDev QDev DTest QTest D
ATIS (contextual) – Suhr et al. 2018 baseline37.562.543.669.2
ATIS (Ours)39.165.844.173.7
Spider – Dev18.919.7
Spider – Ours34.833.8
  • 文法ベースのモデルは、従来手法よりATISのデノテーション精度を絶対値で4.5ポイント、Spiderの完全成分一致を絶対値で14.1ポイント改善した。
  • スキーマ依存ルールと実行時制約を持つ文法は、無効な出力を制約しスキーマ情報を活用することで精度を高める。
  • 型認識付きリンク埋め込みを伴う識別子リンクは、特に未見識別子でのパフォーマンスを向上させる。
  • アブレーション実験では、リンク済みルール、リンク埋め込み、値制約チェックのそれぞれが性能向上に寄与し、いずれを削除してもデノテーションまたはコンポーネント精度が低下した。
  • ATISの文脈(以前の発話)の取り扱いは、過去の文脈が利用可能な場合に追加の改善を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。