QUICK REVIEW

[논문 리뷰] Unlocking Compositional Generalization in Pre-trained Models Using Intermediate Representations

Jonathan Herzig, Peter Shaw|arXiv (Cornell University)|2021. 04. 15.

Natural Language Processing Techniques참고 문헌 46인용 수 51

한 줄 요약

이 논문은 중간 표현(IR)을 설계하고 이를 사전 학습된 seq2seq 모델과 함께 적용하면 CFQ와 text-to-SQL 데이터셋에서 구성적 일반화에 큰 이득을 얻고 새로운 최첨단 결과를 달성한다.

ABSTRACT

Sequence-to-sequence (seq2seq) models are prevalent in semantic parsing, but have been found to struggle at out-of-distribution compositional generalization. While specialized model architectures and pre-training of seq2seq models have been proposed to address this issue, the former often comes at the cost of generality and the latter only shows limited success. In this paper, we study the impact of intermediate representations on compositional generalization in pre-trained seq2seq models, without changing the model architecture at all, and identify key aspects for designing effective representations. Instead of training to directly map natural language to an executable form, we map to a reversible or lossy intermediate representation that has stronger structural correspondence with natural language. The combination of our proposed intermediate representations and pre-trained models is surprisingly effective, where the best combinations obtain a new state-of-the-art on CFQ (+14.8 accuracy points) and on the template-splits of three text-to-SQL datasets (+15.0 to +19.4 accuracy points). This work highlights that intermediate representations provide an important and potentially overlooked degree of freedom for improving the compositional generalization abilities of pre-trained seq2seq models.

연구 동기 및 목표

사전 학습 모델을 사용한 의미 파싱에서 구성적 일반화를 개선하도록 동기를 부여한다.
중간 표현이 자연어와 의미 표현 사이의 구조적 간극을 메울 수 있는지 조사한다.
모델 아키텍처를 변경하지 않고 IR을 활용하는 모델에 구애받지 않는 두 단계 디코딩을 시연한다.
사전 학습과 시너지를 이루는 IR 설계 원칙을 식별한다.
여러 형식(SPARQL, SQL, SCAN)과 데이터셋 전반에 걸친 이득을 정량화한다.

제안 방법

자연어와의 구조적 정합성을 높이기 위해 가역적(Reversible) 및 손실 있는(Lossy) 중간 표현을 정의한다.
x를 중간 표현 z로 매핑하도록 Seq2Seq_1를 훈련시키고, 그다음 역변환(가역 IR) 또는 x와 z에 조건화된 두 번째 모델을 통해 y를 복구한다(Lossy IR).
NL-형식 간의 불일치를 줄이고, 프로그램 구조의 유사성을 높이며, 필요에 따라 괄호를 사용한 계층적 스코핑을 유도하도록 IR을 설계한다.
CFQ(MCD 분할)와 템플릿 분할이 있는 세 가지 text-to-SQL 데이터셋, plus SCAN 분할(length, turn left)을 평가한다.
사전 학습된 T5 모델을 (x, z) 또는 (x, [SEP], z) 쌍에 대해 미세 조정하고; IR 없이 디코딩하는 기준선과 비교한다.
RIR 대 LIR 및 이들의 조합의 기여도를 파악하기 위한 제거실험을 수행하고, 사전 학습과의 상호작용을 분석한다.

실험 결과

연구 질문

RQ1중간 표현(IR)이 아키텍처를 바꾸지 않고도 사전 학습된 seq2seq 모델에서 구성적 일반화를 향상시킬 수 있는가?
RQ2어떤 IR 설계(RIR 대 LIR)와 구체적 설계 선택이 NL–프로그램 불일치를 가장 효과적으로 줄이고 일반화를 개선하는가?
RQ3IR이 사전 학습과 시너지를 이뤄 CFQ 및 text-to-SQL 템플릿에서 이전의 최첨단을 능가하는가?
RQ4IR이 구성적 일반화를 높이면서 i.i.d. 분할에서의 성능을 유지하는가?
RQ5IR 설계가 모델의 사전 학습 의존도와 아키텍처 용량에 어떤 영향을 미치는가?

주요 결과

IR과 사전 학습을 결합하면 구성적 분할에서 큰 이득을 얻는다: CFQ는 정확도 14.8포인트 증가; 세 가지 text-to-SQL 데이터셋의 템플릿 분할은 정확도 15.0~19.4포인트 증가.
가역 IR(RIR)은 구성적 일반화를 크게 향상시키며, 손실 IR(LIR ind)과 결합하면 더 큰 이득이 있다.
T5-base/large/3B로 최고의 IR은 CFQ 및 text-to-SQL 템플릿 분할에서 이전 최첨단을 능가하고, i.i.d. 성능은 유지한다.
골드 IR이 사용된 제거실험에서 IR이 거의 오라클 성능에 근접하게 하여 IR의 정보적 효과가 크다는 것을 시사한다.
IR은 주로 사전 학습과 함께 사용할 때 이점을 제공하며; 비사전 학습 모델은 IR에서 보통 제한적이거나 부정적 이득을 본다.
CFQ: RIR 단독으로 강한 개선을 보이며; LIR 단독은 일관성이 떨어진다; 복합 IR이 최상의 결과를 제공한다.
Text-to-SQL: RIR 및 LIR d +RIR은 ATIS, GeoQuery, Scholar에서 상당한 이득을 가져온다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.