[논문 리뷰] TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data
TaBert는 Transformer를 사전 학습시켜 자연어와 (반)구조화 표를 함께 인코딩하도록 하여 텍스트-투-SQL와 약하게 감독된 표 QA 벤치마크에서의 의미 해석 파싱을 개선한다.
Recent years have witnessed the burgeoning of pretrained language models (LMs) for text-based natural language (NL) understanding tasks. Such models are typically trained on free-form NL text, hence may not be suitable for tasks like semantic parsing over structured data, which require reasoning over both free-form NL questions and structured tabular data (e.g., database tables). In this paper we present TaBERT, a pretrained LM that jointly learns representations for NL sentences and (semi-)structured tables. TaBERT is trained on a large corpus of 26 million tables and their English contexts. In experiments, neural semantic parsers using TaBERT as feature representation layers achieve new best results on the challenging weakly-supervised semantic parsing benchmark WikiTableQuestions, while performing competitively on the text-to-SQL dataset Spider. Implementation of the model will be available at http://fburl.com/TaBERT .
연구 동기 및 목표
- 자유로운 형식의 NL과 표 스키마를 함께 포착하는 표현 표현의 필요성을 제시한다.
- 콘텐츠 인식 스냅샷과 수직 어텐션을 통해 화자 발화와 표 구조를 모두 인코딩하는 BERT 기반의 TaBert 사전 학습 프레임워크를 제안한다.
- TaBert를 시맨틱 파서에 플러그인으로 적용하여 SQL 기반 및 약하게 감독된 표 QA 작업의 성능을 향상시킬 수 있음을 보인다.
제안 방법
- TaBert는 표 내용을 행 단위 시퀀스로 선형화하고 Transformer 인코더를 사용하여 화자 발화와 셀의 행별 표현을 생성한다.
- 콘텐츠 스냅샷은 큰 표를 효율적으로 다루기 위해 입력 발화에 가장 관련성이 높은 행(K)을 샘플링한다.
- 수직 자가 어텐션 계층은 같은 열의 행들 간에 교차 주의를 적용하여 열 표현을 생성한다.
- 열 표현은 열 이름/타입과 샘플링된 셀 값 모두를 포함하며(마스크된 열 예측 및 셀 값 회복 목표를 통해).
- 사전 학습 데이터는 English Wikipedia와 the WDC WebTable 코퍼스에서 추출된 26.6 million 병렬 표–NL 예제로 구성되며, NL 맥락에 대한 MLM과 MCP/CVR 목표를 포함한다.
- TaBert는 두 가지 레짐에서 시맨틱 파서의 드롭인 인코더로 평가된다: 감독된 text-to-SQL(Spider) 및 약하게 감독된 WikiTableQuestions.
실험 결과
연구 질문
- RQ1TaBert로 학습된 결합된 NL 및 표 표현이 표 위의 의미 해석을 개선할 수 있는가?
- RQ2정렬된 NL 및 표 데이터로의 사전 학습이 구조화된(SQL 기반) 및 반구조화된(표 QA) 작업 모두로 이전될 수 있는가?
- RQ3콘텐츠 스냅샷과 수직 어텐션이 표 기반 QA의 인코딩 품질에 미치는 영향은 무엇인가?
- RQ4TaBert 변형들(base vs large; 서로 다른 스냅샷 크기)이 이러한 작업에서 BERT 베이스와 비교하여 어떤가?
주요 결과
- 대형 모델과 콘텐츠 스냅샷을 갖춘 TaBert는 WikiTableQuestions에서 단일 모델로 최첨단 성능을 달성한다.
- TaBert는 강력한 베이스라인에 비해 Spider에서 정확 매치(exact-match) 정확도에 경쟁력 있거나 향상된 성능을 제공하여 최상위 시스템과의 간극을 좁힌다.
- 콘텐츠 스냅샷과 수직 어텐션은 스냅샷이 없거나 단일 행 인코딩보다 성능을 상당히 향상시키며, 특히 TaBert의 경우에 그렇다.
- 대규모 병렬 NL–테이블 데이터로의 사전 학습은 Bert 단독 사용보다 더 좋은 결합 표현을 산출한다.
- TaBert의 표현은 구조적 및 반구조적 표 QA 패러다임 모두에서 효과적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.