QUICK REVIEW

[논문 리뷰] AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

Tong Wu, Zhihao Fan|arXiv (Cornell University)|2023. 05. 16.

Topic Modeling인용 수 18

한 줄 요약

AR-Diffusion은 토큰-위치 의존 디노이징 단계가 있는 자동 회귀 확산 프로세스를 도입하여 요약, 번역, 상식 생성 작업 전반에서 더 빠른 디코딩과 향상된 품질을 달성합니다.

ABSTRACT

Diffusion models have gained significant attention in the realm of image generation due to their exceptional performance. Their success has been recently expanded to text generation via generating all tokens within a sequence concurrently. However, natural language exhibits a far more pronounced sequential dependency in comparison to images, and the majority of existing language models are trained with a left-to-right auto-regressive approach. To account for the inherent sequential characteristic of natural language, we introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that the generation of tokens on the right depends on the generated ones on the left, a mechanism achieved through employing a dynamic number of denoising steps that vary based on token position. This results in tokens on the left undergoing fewer denoising steps than those on the right, thereby enabling them to generate earlier and subsequently influence the generation of tokens on the right. In a series of experiments on various text generation tasks, including text summarization, machine translation, and common sense generation, AR-Diffusion clearly demonstrated its superiority over existing diffusion language models and that it can be $100 imes\sim600 imes$ faster when achieving comparable results. Our code is available at https://github.com/microsoft/ProphetNet/tree/master/AR-diffusion.

연구 동기 및 목표

자연어의 고유한 순차적 의존성을 존중하도록 확산 모델에 동기를 부여한다.
왼쪽에서 오른쪽으로의 의존성을 포착하기 위해 위치에 따라 토큰 생성 속도가 달라지는 자동 회귀 확산 메커니즘을 개발한다.
생성 품질을 향상시키기 위해 다단계 확산 전략(문장 수준 및 토큰 수준)을 도입한다.
성능을 유지하거나 개선하면서 추론 속도를 높이기 위해 건너뛰기 메커니즘으로 디코딩 단계를 감소시킨다.

제안 방법

문장 수준 타임스텝을 무작위로 할당하고 토큰 위치에 따라 토큰 수준 타임스텝 f(n,t)을 계산하는 다단계 확산 전략을 채택한다.
왼쪽 토큰에 대해 왼쪽에서 오른쪽으로 더 빠른 디노이징을 생성하기 위해 토큰 수준 타임스텝의 차이로 토큰 이동 속도 v(n,t_i,t_{i+1})를 정의한다.
인코더-디코더 g_θ를 통해 조건부 확산 가능도와 디노이징 일관성 항을 결합한 목적 함수로 학습한다.
의 inference 단계를 크게 줄이기 위해 문장 수준 타임스텝의 감소하는 부분수열을 선택하는 건너뛰기 추론 메커니즘을 사용한다.
토큰 수준 타임스텝 스케줄링을 안내하기 위한 앵커 포인트 (n_e, t_e)와 f(n,t)를 계산하기 위한 선형(점-경사) 함수 를 제공한다.
역확산을 토큰 전체에 걸쳐 분해하여 각 위치가 자체 이력에 조건부로 작용하되 순방향 확산 구조를 공유한다.

실험 결과

연구 질문

RQ1디퓨전 디노이징 중에 순차 의존성을 다시 도입함으로써 자동 회귀 확산 프로세스가 텍스트 생성 품질을 향상시킬 수 있는가?
RQ2토큰 수준의 디퓨전 타임스텝을 통해 왼쪽에서 오른쪽으로의 이동 속도를 강제하는 것이 일관성 및 사실성 향상에 균일한 타임스텝과 비교해 도움이 되는가?
RQ3건너뛰기 메커니즘이 성능 손실 없이 확산 기반 디코딩을 상당히 가속화할 수 있는가?
RQ4기존 확산 모델 및 AR/NAR 기초 모델에 비해 요약, 번역 및 상식 생성 작업에서 AR-Diffusion은 어떤 성능을 보이는가?

주요 결과

AR-Diffusion은 작업 전반에서 기존 확산 언어 모델과 AR 기반 베이스라인을 일관되게 능가하는 품질을 보인다.
모델은 디코딩 속도를 크게 개선하며 특정 설정에서 최대 100x에서 600x 속도 향상을 주장하면서도 비슷한 성능을 유지한다.
텍스트 요약, 기계 번역, 그리고 상식 생성 전반에서 AR-Diffusion은 GENIE 및 diffusion-LM 베이스라인보다 우수한 결과를 보인다.
건너뛰기 추론과 토큰 수준 확산을 함께 사용하면 효율성이 향상되며 매우 적은 추론 단계에서도 강한 성능을 유지한다.
생성 샘플의 다양성은 여전히 경쟁력이 있으며 AR-Diffusion은 자기회귀 모델보다 더 높은 다양성을 달성하고 특정 설정에서는 GENIE와 비슷한 다양성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.