[논문 리뷰] Insertion-based Decoding with automatically Inferred Generation Order
이 논문은 인코딩 또는 지식 distillation이 필요 없이, 순차 생성 중 상대적 오프셋으로 위치를 모델링함으로써 민첩한 생성 순서를 추론하는 새로운 삽입 기반 디코딩 방법인 InDIGO를 제안한다. 자기회귀적 디코딩 중 상대적 위치를 고려한 자기주도 어텐션을 확장함으로써 InDIGO는 재귀적 생성 순서를 비왼쪽에서 오른쪽으로 유연하게 조정할 수 있으며, 기계 번역, 코드 생성, 이미지 캡션 생성, 어순 복구 등의 작업에서 경쟁적 또는 뛰어난 성능을 달성한다.
Conventional neural autoregressive decoding commonly assumes a fixed left-to-right generation order, which may be sub-optimal. In this work, we propose a novel decoding algorithm -- InDIGO -- which supports flexible sequence generation in arbitrary orders through insertion operations. We extend Transformer, a state-of-the-art sequence generation model, to efficiently implement the proposed approach, enabling it to be trained with either a pre-defined generation order or adaptive orders obtained from beam-search. Experiments on four real-world tasks, including word order recovery, machine translation, image caption and code generation, demonstrate that our algorithm can generate sequences following arbitrary orders, while achieving competitive or even better performance compared to the conventional left-to-right generation. The generated sequences show that InDIGO adopts adaptive generation orders based on input information.
연구 동기 및 목표
- 신경 자기회귀 모델에서 고정된 왼쪽에서 오른쪽 생성 순서의 한계를 해결하기 위해.
- 각 단계에서 재인코딩이 필요 없이도 임의의 생성 순서를 지원하는 디코딩 알고리즘을 개발하기 위해.
- 사전에 정의된 또는 고정된 순서에 의존하지 않고 입력 컨텍스트에 기반해 최적의 생성 순서를 적응적으로 유추할 수 있도록 하기 위해.
- 상대적 위치 예측을 통한 삽입 기반 생성을 허용하면서도 계산 효율성을 유지함으로써 순차 생성 성능을 향상시키기 위해.
- 적응형 생성 순서가 기존의 왼쪽에서 오른쪽 디코딩보다 다양한 순차 생성 작업에서 더 나은 성능을 낼 수 있음을 입증하기 위해.
제안 방법
- 모델은 절대 위치가 아닌 상대적 위치 기반 표현을 사용하여 생성 순서를 잠재 변수로 인코딩함으로써 절대 위치가 필요 없도록 한다.
- 각 디코딩 단계에서 모델은 다음 토큰과 그 출력 시퀀스 내 상대적 삽입 위치를 동시에 예측한다.
- Shaw 등 (2018)의 영감을 받은 상대적 위치 인코딩을 활용해 트랜스포머 아키텍처를 확장하여 동적 삽입 연산을 지원한다.
- 최대우도 목표의 증거 하한 경계(ELBO)를 사용하여 훈련하며, 생성 순서에 대한 근사 후행 분포를 사용한다.
- 두 가지 추론 전략을 사용한다: 하나는 사전 정의된 순서를 사용하고, 다른 하나는 비드 서치를 사용해 적응형 순서를 유추한다.
- 최종 시퀀스는 예측된 토큰을 유추된 상대적 위치에 삽입함으로써 자동으로 생성된다.
실험 결과
연구 질문
- RQ1기존의 왼쪽에서 오른쪽 디코딩과 비교해가며, 비왼쪽에서 오른쪽으로의 민감한 생성 순서가 순차 생성 성능을 향상시킬 수 있는가?
- RQ2고정되거나 수작업으로 정의된 순서에 의존하지 않고, 입력 컨텍스트에 기반해 모델이 최적의 생성 순서를 자동으로 유추할 수 있는가?
- RQ3절대 위치를 사용하는 방법과 달리, 재인코딩이나 지식 distillation 없이도 상대적 위치 예측을 통한 삽입 기반 디코딩이 경쟁 가능한 성능을 달성할 수 있는가?
- RQ4적응형 생성 순서는 입력 콘텐츠에 따라 어떻게 변화하며, 비드 서치를 통해 효과적으로 학습될 수 있는가?
- RQ5이러한 방법은 번역, 코드 생성, 이미지 캡션 생성과 같은 다양한 순차 생성 작업으로 일반화될 수 있는가?
주요 결과
- InDIGO는 기계 번역, 어순 복구, 코드 생성, 이미지 캡션 생성의 네 가지 실제 작업에서 왼쪽에서 오른쪽 자기회귀 모델과 경쟁적 또는 더 뛰어난 성능을 달성한다.
- 사례 연구를 통해 모델이 입력 콘텐츠에 따라 적응형 생성 순서를 효과적으로 학습함을 확인했다.
- 어순 복구 및 이미지 캡션 생성에서 기준 왼쪽에서 오른쪽 트랜스포머를 능가함으로써, 민감한 순서의 이점이 입증되었다.
- 기존의 삽입 기반 모델과 달리, InDIGO는 각 단계에서 부분 시퀀스를 재인코딩할 필요가 없어, 절대 위치를 사용하는 방법보다 더 효율적이다.
- 지식 distillation이 필요 없이도 강력한 성능을 달성했으며, 이는 Stern 등 (2019)과 같은 유사 작업이 경쟁적 성능을 내기 위해 이를 필요로 한 것과 대조된다.
- 상대적 위치의 사용은 효율적인 어텐션 계산을 가능하게 하며, 재인코딩으로 인한 계산 오버헤드를 피함으로써 이론적으로 확장 가능성을 확보한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.