QUICK REVIEW

[논문 리뷰] DuTongChuan: Context-aware Translation Model for Simultaneous Interpreting

Hao Xiong, Ruiqing Zhang|arXiv (Cornell University)|2019. 07. 30.

Natural Language Processing Techniques참고 문헌 46인용 수 25

한 줄 요약

DuTongChuan는 스트리밍 ASR 출력에서 정보 단위(IU)를 동적으로 탐지하고, 초기 IU에 대해 부분 복호화를 적용하고, 이후 IU에 대해 맥락 인식 복호화를 적용하여 저지연과 유창하고 일관된 번역을 균형 있게 달성하는 맥락 인식 신경 기계 번역 모델을 제안한다. 이 모델은 중국어-영어 번역에서 85.71%, 영어-중국어 번역에서 86.36%의 인간 평가 점수를 기록했으며, 대부분의 경우 3초 이내로 지연을 유지한다.

ABSTRACT

In this paper, we present DuTongChuan, a novel context-aware translation model for simultaneous interpreting. This model allows to constantly read streaming text from the Automatic Speech Recognition (ASR) model and simultaneously determine the boundaries of Information Units (IUs) one after another. The detected IU is then translated into a fluent translation with two simple yet effective decoding strategies: partial decoding and context-aware decoding. In practice, by controlling the granularity of IUs and the size of the context, we can get a good trade-off between latency and translation quality easily. Elaborate evaluation from human translators reveals that our system achieves promising translation quality (85.71% for Chinese-English, and 86.36% for English-Chinese), specially in the sense of surprisingly good discourse coherence. According to an End-to-End (speech-to-speech simultaneous interpreting) evaluation, this model presents impressive performance in reducing latency (to less than 3 seconds at most times). Furthermore, we successfully deploy this model in a variety of Baidu's products which have hundreds of millions of users, and we release it as a service in our AI platform.

연구 동기 및 목표

동시 번역 시스템에서 저지연과 높은 번역 품질을 균형 있게 유지하는 데 도전하는 데 목적이 있다.
단일 발화를 넘는 맥락적 의존성을 모델링하여 스트리밍 번역에서 논리적 일관성을 향상시키는 데 목적이 있다.
최소한의 지연과 높은 유창성을 확보하여 실세계 응용 프로그램에서의 실용적 구현을 가능하게 하는 데 목적이 있다.
더 나은 일관성을 위해 인간 통역사 전략인 '청크링'(chunking) 또는 '살라미 기법'(salami technique)을 모방하는 시스템을 개발하는 데 목적이 있다.

제안 방법

모델은 실시간으로 스트리밍 ASR 출력에서 의미 있는 언어적 세그먼트를 식별하는 새로운 정보 단위(IU) 경계 탐지기를 사용한다.
문장의 시작 부분에 있는 IU에 대해 부분 복호화를 적용하여 지연을 최소화하고 조기 번역을 가능하게 한다.
문장 중간 또는 끝부분의 IU에 대해 맥락 인식 복호화를 사용하여 이전 정보를 활용해 유창성과 일관성을 향상시킨다.
지연과 번역 품질 간의 트레이드오��을 위해 IU의 세분화 수준과 맥락 윈도우 크기를 동적으로 제어한다.
ASR 스트리밍 입력과 이중 경로 NMT 복호화기 아키텍처를 통합하여 문장 경계를 기다리지 않고 지속적인 번역을 가능하게 한다.
대규모 음성-텍스트 번역 코퍼스에서 엔드 투 엔드로 훈련하고, 인간이 애너테이션한 동시 통역 데이터로 미세조정한다.

실험 결과

연구 질문

RQ1실시간 처리 중에 저지연을 유지하면서도 높은 유창성과 일관성을 확보할 수 있는 동시 번역 모델의 구현 방법은 무엇인가?
RQ2입력 음성을 의미 있는 정보 단위(IU)로 분할하는 최적의 방법은 무엇인가?
RQ3스트리밍 환경에서 기존의 부분 복호화 방식에 비해 맥락 인식 복호화가 번역 품질을 크게 향상시킬 수 있는가?
RQ4지연과 인간 평가 품질 측면에서, 모델의 성능은 기존의 wait-k 및 전체 문장 기반 베이스라인과 어떻게 비교되는가?
RQ5인간이 유도하는 청크링 전략이 기계 번역에서 논리적 수준의 일관성 향상에 얼마나 기여할 수 있는가?

주요 결과

중국어-영어 동시 번역에서 85.71%, 영어-중국어 번역에서 86.36%의 인간 평가 점수를 기록하여 뛰어난 유창성과 일관성을 입증했다.
인간 평가를 통해 표준 부분 복호화 모델 대비 논리적 일관성이 뚜렷이 향상된 것으로 확인되었다.
엔드 투 엔드 음성-음성 번역 과정에서 지연이 대부분의 경우 3초 이내로 유지되어 실시간 요구 조건을 충족했다.
맥락 인식 복호화 덕분에 ASR 오류에 대해 강건성을 확보하여 번역 신뢰도가 향상되었다.
모델는 성공적으로 바이두의 AI 플랫폼에 구현되어 수억 명의 사용자를 확보하며 실세계 적용 가능성과 확장성을 입증했다.
향후 강건한 동시 번역 연구를 지원하기 위해 새로운 음성 번역 코퍼스인 BSTC를 공개하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.