Skip to main content
QUICK REVIEW

[논문 리뷰] KERMIT: Generative Insertion-Based Modeling for Sequences

William Chan, Nikita Kitaev|arXiv (Cornell University)|2019. 06. 04.
Natural Language Processing Techniques참고 문헌 22인용 수 67
한 줄 요약

KERMIT는 고정된 팩토라이제이션 없이 p(x,y)와 그 주변 분포 및 조건부 분포를 공동으로 학습하는 삽입 기반의 통합 모델을 제시하여 양방향 번역, 표현 학습, 그리고 로그-시간 병렬 디코딩으로 제로샷 Cloze QA를 가능하게 한다.

ABSTRACT

We present KERMIT, a simple insertion-based approach to generative modeling for sequences and sequence pairs. KERMIT models the joint distribution and its decompositions (i.e., marginals and conditionals) using a single neural network and, unlike much prior work, does not rely on a prespecified factorization of the data distribution. During training, one can feed KERMIT paired data $(x, y)$ to learn the joint distribution $p(x, y)$, and optionally mix in unpaired data $x$ or $y$ to refine the marginals $p(x)$ or $p(y)$. During inference, we have access to the conditionals $p(x \mid y)$ and $p(y \mid x)$ in both directions. We can also sample from the joint distribution or the marginals. The model supports both serial fully autoregressive decoding and parallel partially autoregressive decoding, with the latter exhibiting an empirically logarithmic runtime. We demonstrate through experiments in machine translation, representation learning, and zero-shot cloze question answering that our unified approach is capable of matching or exceeding the performance of dedicated state-of-the-art systems across a wide range of tasks without the need for problem-specific architectural adaptation.

연구 동기 및 목표

  • prespecified left-to-right factorization에 의존하지 않는 유연한 시퀀스 모델링 프레임워크를 제시하는 것.
  • 시퀀스의 결합 분포와 그 주변/조건부 분포를 통합 모델에서 학습한다.
  • 번역 및 클로즈 스타일 QA를 포함한 양방향 생성 및 보충을 가능하게 한다.
  • 간단한 Transformer 기반 아키텍처를 사용하여 기계 번역, 표현 학습, 제로샷 QA에서 경쟁력 있는 성능을 보여준다.

제안 방법

  • 삽입 연산을 통해 어떤 순서로든 캔버스를 구성하여 결합 분포 p(x,y)을 나타낸다.
  • 제슨의 부등식을 이용해 로그우도를 하한화하고, 생성 순서와 삽입을 샘플링한다.
  • 내용과 위치를 p(c,l)=p(c|l)p(l)로 인자화하고 인과 마스킹이 없는 단일 Transformer 디코더를 사용한다.
  • 양방향 추론(p(y|x)와 p(x|y)) 및 결합 분포와 주변 분포로부터의 샘플링을 가능하게 한다.
  • x와 y를 연결하여 두 시퀀스의 쌍으로 확장하고 결합, 주변, 조건부 분해를 학습하도록 한다.

실험 결과

연구 질문

  • RQ1고정된 인자화 없이 삽입 기반 모델이 p(x,y)와 그 분해들을 학습할 수 있는가?
  • RQ2단일 통합 모델이 번역, 표현 학습, 클로즈 QA에서 최첨단 성능과 같거나 이를 상회하는가?
  • RQ3전통적인 자동회귀 모델과 비교했을 때 양방향 생성 및 주변 정제가 성능과 효율성에 어떤 영향을 미치는가?
  • RQ4삽입 연산으로 시퀀스 쌍을 모델링할 때 추론 및 샘플링 능력은 무엇인가?

주요 결과

  • KERMIT는 기계 번역, 표현 학습, 제로샷 클로즈 QA에서 작업 간 현저한 성능 차이를 보이지 않거나 현저히 앞설 수 있다.
  • 모델은 직렬 자동회귀 디코딩과 병렬 부분 자동회귀 디코딩을 모두 지원하며, 시퀀스 길이에 대해 경험적으로 로그미만의 런타임을 가진다.
  • 주변 정제(p(x) 및 p(y))를 포함한 결합 모델링이 독일어→영어 번역의 품질을 약 1.2 BLEU 향상시킨다(보고된 설정에서).
  • 양방향 학습 및 파인튜닝은 문제별 아키텍처 조정 없이도 경쟁력 있는 결과를 제공한다.
  • 삽입 기반 디코딩은 출력 캔버스의 동적 성장을 가능하게 하여 고정 길이 생성 제약을 피한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.