QUICK REVIEW

[논문 리뷰] A Generalized Framework of Sequence Generation with Application to Undirected Sequence Models

Elman Mansimov, Alex Wang|arXiv (Cornell University)|2019. 05. 29.

Natural Language Processing Techniques참고 문헌 29인용 수 46

한 줄 요약

이 논문은 지시형 및 비지시형 신경 시퀀스 모델의 디코딩을 일반화된 프레임워크로 통합하여 모델(BERT 등)에서 상수 시간 및 적응 주문 생성을 가능하게 하고, 다양한 디코딩 전략으로 WMT’14 En-De에서 경쟁력 있는 기계 번역 결과를 보여준다.

ABSTRACT

Undirected neural sequence models such as BERT (Devlin et al., 2019) have received renewed interest due to their success on discriminative natural language understanding tasks such as question-answering and natural language inference. The problem of generating sequences directly from these models has received relatively little attention, in part because generating from undirected models departs significantly from conventional monotonic generation in directed sequence models. We investigate this problem by proposing a generalized model of sequence generation that unifies decoding in directed and undirected models. The proposed framework models the process of generation rather than the resulting sequence, and under this framework, we derive various neural sequence models as special cases, such as autoregressive, semi-autoregressive, and refinement-based non-autoregressive models. This unification enables us to adapt decoding algorithms originally developed for directed sequence models to undirected sequence models. We demonstrate this by evaluating various handcrafted and learned decoding strategies on a BERT-like machine translation model (Lample & Conneau, 2019). The proposed approach achieves constant-time translation results on par with linear-time translation results from the same undirected sequence model, while both are competitive with the state-of-the-art on WMT'14 English-German translation.

연구 동기 및 목표

비방향 신경 시퀀스 모델(예: BERT)에서의 디코딩 동기를 제시하고 생성 중심 프레임워크를 형식화한다.
길이, 좌표(위치) 선택, 심볼 치환을 분리하여 방향성 모델과 비방향 모델 간의 디코딩을 통합한다.
단조적 자동회귀, 비자동회귀, 준자동회귀 디코딩을 프레임워크 내의 특수 사례로 도출한다.
MT 태스크에서 비방향 모델에 대한 결정적 및 학습 기반 디코딩 전략을 개발하고 평가한다.
상수 시간 디코딩 변형을 제시하여 자기회귀 기본 모델에 비견될 성능을 달성한다.

제안 방법

생성 과정 G를 중간 시퀀스 Y^t와 좌표 시퀀스 Z^t로 정의하고, X에 대한 길이 예측 p(L|X), 좌표 선택 p(z^{t+1}_i|Y^{≤t},Z^t,X), 기호 치환 p(y^{t+1}_i|Y^{≤t},Z^{t+1},X)를 통해 p(G|X)로 모델링한다.
단조적 자동회귀, 비자동회귀 반복 정제, 및 준자동회귀 디코딩이 프레임워크의 특수 사례임을 보인다.
생성 순서를 적응시키기 위해 로그선형(log-linear) 또는 학습된 좌표 선택기를 구동하고, 음의 엔트로피, 로그 확률, 위치 편향과 같은 특징을 갖는 적응적 Gibbs 샘플링 방식 포함.
일반화된 프레임워크 내에서 Gibbs 샘플링을 적용하여 길이 조건부 빔 검색을 통한 결정적 낙관 디코딩을 가능하게 한다.
생성 품질(편집 거리 변화)에 따라 보상을 최대화하도록 강화 학습(PPO)을 사용하여 좌표 선택 정책을 훈련한다.
WMT’14 영어-독일어 번역에서 마스킹 번역 모델(사전학습된 BERT 유사 모델)로 디코딩 전략을 평가하고 좌→우 자동회귀 기준선과 비교한다.

실험 결과

연구 질문

RQ1비방향 시퀀스 모델의 디코딩이 하나의 생성 중심 프레임워크로 방향성 모델과 통합될 수 있는가?
RQ2다양한 좌표 선택 및 기호 치환 전략이 비방향 모델의 번역 품질에 어떤 영향을 미치는가?
RQ3BLEU 점수와 효율성 측면에서 비방향 모델의 결정적 디코딩과 학습 기반 디코딩 간의 트레이드오프는 무엇인가?
RQ4비방향 모델의 상수 시간 디코딩이 선형 시간 또는 자동회귀 방법과 경쟁력 있는 성능을 달성할 수 있는가?
RQ5마스크된 언어 모델을 이용한 MT에서 적응적 순서화가 유용한 전략으로 부상하는가?

주요 결과

프레임워크는 단일 생성 과정 아래에서 다중 디코딩 패러다임(자동회귀, 비자동회귀, 준자동회귀)을 통합한다.
결정적 좌표 선택 전략(좌→우, 최소~다수, 쉬운 것부터, 학습된)이 균일한 좌표 선택보다 최대 약 3 BLEU 높은 성능을 En–De 및 De–En에서 보인다.
빔 검색은 탐욕적 디코딩에 비해 약 1 BLEU 향상시킨다.
자기회귀 모델로 재점수 매김이 약 1 BLEU를 추가한다.
학습된 및 좌→우 전략이 가장 강력한 성능을 제공하며, 좌→우는 MT 태스크에서 25.66 BLEU(En→De), 학습된 전략은 30.58 BLEU(De→En)를 달성한다.
예산 T 및 o_t 설정이 포함된 상수 시간 디코딩은 선형 시간 디코딩과 맞먹고 최첨단 자동회귀 성능에 근접할 수 있다(예: 특정 설정에서 De→En의 30.13 대 30.92 BLEU).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.