QUICK REVIEW

[논문 리뷰] TAPEX: Table Pre-training via Learning a Neural SQL Executor

Qian Liu, Bei Chen|arXiv (Cornell University)|2021. 07. 16.

Topic Modeling참고 문헌 41인용 수 90

한 줄 요약

TaPEx는 합성 SQL-테이블 말뭉치를 기반으로 신경망 SQL 실행기를 흉내 내며 언어 모델을 사전 학습시키고, 네 가지 표 관련 벤치마크에서 최첨단 성능을 달성한다.

ABSTRACT

Recent progress in language model pre-training has achieved a great success via leveraging large-scale unstructured textual data. However, it is still a challenge to apply pre-training on structured tabular data due to the absence of large-scale high-quality tabular data. In this paper, we propose TAPEX to show that table pre-training can be achieved by learning a neural SQL executor over a synthetic corpus, which is obtained by automatically synthesizing executable SQL queries and their execution outputs. TAPEX addresses the data scarcity challenge via guiding the language model to mimic a SQL executor on the diverse, large-scale and high-quality synthetic corpus. We evaluate TAPEX on four benchmark datasets. Experimental results demonstrate that TAPEX outperforms previous table pre-training approaches by a large margin and achieves new state-of-the-art results on all of them. This includes the improvements on the weakly-supervised WikiSQL denotation accuracy to 89.5% (+2.3%), the WikiTableQuestions denotation accuracy to 57.5% (+4.8%), the SQA denotation accuracy to 74.5% (+3.5%), and the TabFact accuracy to 84.2% (+3.2%). To our knowledge, this is the first work to exploit table pre-training via synthetic executable programs and to achieve new state-of-the-art results on various downstream tasks. Our code can be found at https://github.com/microsoft/Table-Pretraining.

연구 동기 및 목표

대규모의 고품질 합성 말뭉치를 생성하여 표 사전학습의 데이터 부족 문제를 해결한다.
테이블 위에서 SQL 실행기를 흉내 내도록 모델을 학습시키는 실행 중심의 사전 학습 태스크를 개발한다.
인코더-디코더 구조와 표 사전학습을 통합하여 다운스트림 표 추론 태스크를 향상시킨다.
다양한 표 QA 및 사실 검증 벤치마크에서 TaPEx를 실증적으로 평가한다.
이전의 표 사전학습 방법들과 비교했을 때, 데이터가 적은 상황에서도 효율성과 효과를 입증한다.

제안 방법

테이블 인식을 고려한 입력을 모델링하기 위해 인코더-디코더 LM(BART)을 백본으로 사용한다.
헤더와 행을 나타내는 특수 토큰으로 표를 시퀀스로 평탄화하여 모델에 직접 입력할 수 있도록 한다.
SQL 쿼리와 표를 주면 SQL 실행 결과를 출력하도록 모델을 사전 학습시켜 사실상 모델을 신경망 SQL 실행기로 만든다.
공개적으로 이용 가능한 테이블(예: WikiTableQuestions)에 대해 SQL 템플릿을 인스턴스화하고 비어 있는 결과를 걸러내어 대규모 사전 학습 말뭉치를 합성한다.
출력을 시퀀스로 공식화하여 다운스트림 태스크(TableQA 및 TableFV)에서 파인튜닝하고, 답변의 유연한 생성과 이진 검증을 가능하게 한다.
선택적으로 다중 작업 파인튜닝을 수행하고 추론 시 실행 가이드 디코딩을 탐구한다.

실험 결과

연구 질문

RQ1테이블 위에서 SQL 유사 쿼리를 실행하는 언어 모델의 사전 학습이 테이블 추론 태스크를 개선할 수 있는가?
RQ2이전의 표 사전 학습 방식과 비교할 때 TaPEx는 다양한 표 QA 및 사실 검증 벤치마크에서 어떻게 성능을 보이는가?
RQ3합성 기반의 실행 중심 사전 학습이 전통적인 표 사전 학습 방법보다 데이터 효율적인가?
RQ4이 접근법이 저자원 다운스트림 설정에 잘 일반화되는가?

주요 결과

TaPEx는 네 가지 벤치마크에서 새로운 최첨단 결과를 달성한다: WikiSQL-Weak, WikiTableQuestions, SQA, TabFact.
WikiSQL-Weak에서 TaPEx는 테스트 세트에서 89.5% 표기 정확도를 달성해 이전 최고를 2.3포인트 능가한다.
WikiTableQuestions에서 TaPEx는 57.5% 표기 정확도(테스트)를 달성했고 이는 이전 최고 대비 4.8포인트 향상이다.
SQA에서 TaPEx는 74.5% ALL 표기 정확도(테스트 세트)를 달성했고 대화 및 문장 수준 지표에서 두드러진 향상을 보인다.
TabFact에서 TaPEx는 74.5% ALL 정확도와 Q1–Q3 전반에 걸친 강한 하위 기준을 달성하여 이전 모델들을 능가한다.
TaPEx는 저데이터 상황에서도 강력한 성능을 보이며, 더 작은 사전 학습 말뭉치로도 상당한 이점을 달성할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.