QUICK REVIEW

[論文レビュー] Editing-Based SQL Query Generation for Cross-Domain Context-Dependent Questions

Rui Zhang, Yu Tao|arXiv (Cornell University)|Sep 2, 2019

Topic Modeling参考文献 53被引用数 49

ひとこと要約

本論文は、以前に予測されたクエリを編集することでSQLを生成する編集ベースのエンコーダ-デコーダモデルを提案し、 utterance-table エンコーダとテーブル対応デコーダを追加して、クロスドメインのコンテキスト依存のテキスト-to-SQLを扱います。SParCとSpiderデータセット上で、クエリ編集とBERTベースの utterance-table 表現を用いることで、最先端のベースラインに対して改善を達成します。

ABSTRACT

We focus on the cross-domain context-dependent text-to-SQL generation task. Based on the observation that adjacent natural language questions are often linguistically dependent and their corresponding SQL queries tend to overlap, we utilize the interaction history by editing the previous predicted query to improve the generation quality. Our editing mechanism views SQL as sequences and reuses generation results at the token level in a simple manner. It is flexible to change individual tokens and robust to error propagation. Furthermore, to deal with complex table structures in different domains, we employ an utterance-table encoder and a table-aware decoder to incorporate the context of the user utterance and the table schema. We evaluate our approach on the SParC dataset and demonstrate the benefit of editing compared with the state-of-the-art baselines which generate SQL from scratch. Our code is available at https://github.com/ryanzhumich/sparc_atis_pytorch.

研究の動機と目的

履歴がターン間で重要になるクロスドメインかつ文脈依存のテキスト-to-SQL生成を動機づける。
生成結果を再利用し誤伝搬を低減させるために、以前に生成したSQLクエリの編集を活用する。
utterance-tableエンコーダとテーブル対応デコーダで複雑なテーブルスキーマを組み込む。
SParC（クロスドメイン、文脈依存）とSpider（文脈非依存のクロスドメイン）データセットで評価する。
編集がセグメントコピーより頑健であることを示し、BERTベースのエンコードによる利得を定量化する。

提案手法

ビットLSTMと共注意を用いた発話列と列ヘッダの相互作用を含むターン認識 utterance-table エンコーダでユーザー発話とテーブルスキーマをエンコードする。 Utterance-Table 表現にはBERTベースの埋め込みを任意に使用する。
インタラクションレベルの履歴エンコーダを保持し、ターン間の依存関係を捕捉する。
列ヘッダと発話トークンに注意を向け、SQLキーワードまたは列ヘッダの分布を出力するテーブル対応デコーダでSQLをデコードする。 SQLキーワード対列ヘッダの出力を2ウェイスコアリング機構で適用する。
以前のクエリを条件に、前のクエリからコピーするか新しいトークンを挿入する（P(y_k)）かを学習するクエリ編集メカニズムをデコーダに拡張する。前回のクエリと現在の出力分布の組み合わせを用いて編成を行う。
クエリ注意機構を組み込み、前のクエリおよび前回のターンのトークンに注意を向けて編集決定をさらに情報化する。

実験結果

リサーチクエスチョン

RQ1以前に生成したSQLクエリの編集は、ゼロから生成するよりクロスドメインで文脈依存のテキスト-to-SQL生成を改善できるか？
RQ2コア注意付きの utterance-table エンコーダとテーブル対応デコーダは、ドメインを越えた多様なスキーマをよりよく扱えるか？
RQ3クエリ編集機構はマルチターンの相互作用における誤伝搬耐性にどのように影響するか？
RQ4BERTベースの utterance-table 埋め込みを用いるとクロスドメインのテキスト-to-SQL性能にどのような影響があるか？
RQ5提案コンポーネントはSParCとSpiderデータセットで、質問一致と相互作用一致の指標においてどのような性能を示すか？

主な発見

編集ベースの生成は、SParCでゼロからSQLを生成する最先端ベースラインより改善をもたらし、相互作用関連の指標で顕著な利得を示す。
発話-テーブル埋め込み（特にBERT使用時）はクロスドメインの性能を大幅に向上させ、Spiderで高い成績、SParCで substantial gainsを達成する。
クエリ編集機構は、特にBERTベースのエンコードと組み合わせた場合、セグメント丸ごとコピーより誤伝搬に対して頑健である。
ターン注意とテーブル-発話の共注意は、クロスドメインのスキーマとターン間の文脈依存性をモデルが扱うのに役立つ。
SParCでは、編集+クエリ注意+予測履歴を用いた場合、質問一致精度と相互作用一致精度でベースラインを上回る；ゴールド履歴を使用するとさらに大きな利得になる。
Spider（文脈非依存）では、utterance-table BERT埋め込みがdevとtestスコアを最先端のクロスドメインモデルと同等レベルに引き上げる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。