QUICK REVIEW

[論文レビュー] TAPEX: Table Pre-training via Learning a Neural SQL Executor

Qian Liu, Bei Chen|arXiv (Cornell University)|Jul 16, 2021

Topic Modeling参考文献 41被引用数 90

ひとこと要約

TaPEx は合成 SQL-テーブルコーパス上でニューラル SQL 実行者を模倣することで言語モデルを事前訓練し、4つのテーブル関連ベンチマークで最先端の結果を達成します。

ABSTRACT

Recent progress in language model pre-training has achieved a great success via leveraging large-scale unstructured textual data. However, it is still a challenge to apply pre-training on structured tabular data due to the absence of large-scale high-quality tabular data. In this paper, we propose TAPEX to show that table pre-training can be achieved by learning a neural SQL executor over a synthetic corpus, which is obtained by automatically synthesizing executable SQL queries and their execution outputs. TAPEX addresses the data scarcity challenge via guiding the language model to mimic a SQL executor on the diverse, large-scale and high-quality synthetic corpus. We evaluate TAPEX on four benchmark datasets. Experimental results demonstrate that TAPEX outperforms previous table pre-training approaches by a large margin and achieves new state-of-the-art results on all of them. This includes the improvements on the weakly-supervised WikiSQL denotation accuracy to 89.5% (+2.3%), the WikiTableQuestions denotation accuracy to 57.5% (+4.8%), the SQA denotation accuracy to 74.5% (+3.5%), and the TabFact accuracy to 84.2% (+3.2%). To our knowledge, this is the first work to exploit table pre-training via synthetic executable programs and to achieve new state-of-the-art results on various downstream tasks. Our code can be found at https://github.com/microsoft/Table-Pretraining.

研究の動機と目的

テーブル事前訓練におけるデータ不足に対処するため、巨大で高品質な合成コーパスを作成する。
テーブル上で SQL 実行機を模倣するモデルを学習させる、実行指向の事前訓練タスクを開発する。
下流のテーブル推論タスクを改善するために、テーブル事前訓練をエンコーダ-デコーダアーキテクチャと統合する。
多様なテーブル QA および事実検証ベンチマークで TaPEx を実証的に評価する。
従来のテーブル事前訓練手法と比較して、低データ状況での効率と有効性を示す。

提案手法

テーブル指向の入力をモデル化する基盤として、エンコーダ-デコーダLM（BART）を用いる。
ヘッダと行を示す特殊トークンを用いてテーブルをシーケンスに平坦化し、モデルへの直接入力を可能にする。
SQL クエリとテーブルを与えたときに SQL 実行結果を出力するようにモデルを事前訓練し、実質的にモデルをニューラル SQL 実行機にする。
公開テーブル（例: WikiTableQuestions）上で SQL テンプレートを実例化して大規模な事前訓練コーパスを合成し、空の結果を除去する。
出力をシーケンスとして定式化することで下流タスク（TableQA および TableFV）で微調整し、回答や二値検証の柔軟な生成を可能にする。
任意でマルチタスク微調整を行い、推論時の実行指向デコードを探索する。

実験結果

リサーチクエスチョン

RQ1テーブル上で SQL 的なクエリを実行する言語モデルを事前訓練すると、テーブル推論タスクは改善されるか。
RQ2従来のテーブル事前訓練アプローチと比較して、TaPEx は多様なテーブル QA および事実検証ベンチマークでどのように性能を発揮するか。
RQ3合成・実行ベースの事前訓練は、従来のテーブル事前訓練手法よりデータ効率が良いのか。
RQ4このアプローチは低リソースの下流設定に対してよく一般化するか。

主な発見

TaPEx は four benchmarks で新たな state-of-the-art 結果を達成: WikiSQL-Weak、WikiTableQuestions、SQA、TabFact。
On WikiSQL-Weak, TaPEx attains 89.5% denotation accuracy on the test set, outperforming the previous best by 2.3 percentage points.
On WikiTableQuestions, TaPEx reaches 57.5% denotation accuracy (test), a 4.8-point improvement over prior best.
On SQA, TaPEx achieves 74.5% ALL denotation accuracy (test set), with notable gains across conversation and sentence-level metrics.
On TabFact, TaPEx attains 74.5% ALL accuracy along with strong sub-criteria across Q1–Q3, surpassing prior models.
TaPEx demonstrates strong performance in low-data regimes and can achieve substantial gains with smaller pre-training corpora.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。