QUICK REVIEW

[논문 리뷰] Synthetic Spoken Data for Neural Machine Translation.

Hany Hassan, Mostafa ElAraby|arXiv (Cornell University)|2017. 07. 01.

Natural Language Processing Techniques인용 수 2

한 줄 요약

이 논문은 단일 언어의 분산 표현을 이용한 국지적 임베딩 투영을 통해 신경 기계 번역을 위한 합성 구어어 병렬 데이터를 생성하는 언어에 종속되지 않는 방법을 제안한다. 문장 간의 구어어 변형을 통해 기존의 문어어 병렬 코퍼스를 변환함으로써, 레반틴어에서 영어로의 번역에서 2.8 BLEU 이상의 성능 향상을 이끌어내어 저자원 구어어에 대한 효과적인 NMT를 가능하게 한다.

ABSTRACT

Spoken language translation is usually limited by the non-availability of the parallel data. We generate synthetic data for Neural Machine Translation of Spoken-Dialects. We introduce a novel approach to generate synthetic data for training Neural Machine Translation systems. The proposed approach transforms a given parallel corpus between a written language and a target language to a parallel corpus between a spoken dialect variant and the target language. In this paper, we introduce a novel approach to generate synthetic data for training Neural Machine Translation systems. The proposed approach transforms a given parallel corpus between a written language and a target language to a parallel corpus between a spoken dialect variant and the target language. Our approach is language independent and can be used to generate data for any variant of the source language such as slang or spoken dialect or even for a different language that is closely related to the source language. The proposed approach is based on local embedding projection of distributed representations which utilizes monolingual embeddings to transform parallel data across language variants. We report experimental results on Levantine to English translation using Neural Machine Translation. We show that the generated data can improve a very large scale system by more than 2.8 Bleu points using synthetic spoken data which shows that it can be used to provide a reliable translation system for a spoken dialect that does not have sufficient parallel data.

연구 동기 및 목표

신경 기계 번역에서 구어어에 대한 병렬 학습 데이터 부족 문제를 해결한다.
적절한 병렬 코퍼스가 부족한 저자원 구어어에 대해 신뢰할 수 있는 번역 시스템을 구현한다.
문어어와 구어어 변형 간의 병렬 데이터를 합성하기 위한 언어에 종속되지 않는 접근법을 개발한다.
병렬 단일 언어 데이터가 필요 없이도 단일 언어 임베딩을 활용해 언어 변형 간의 병렬 데이터를 투영한다.
합성 데이터의 효과성을 대규모 번역 시스템에서의 NMT 성능 향상 측면에서 입증한다.

제안 방법

문어어와 대상 구어어 모두의 단일 언어 코퍼스로부터 유도된 분산 표현(단어 임베딩)을 활용한다.
정렬 정보를 이용해 문어어 공간의 단어 벡터를 구어어 공간으로 매핑하기 위해 국지적 임베딩 투영을 적용한다.
기존의 문어어와 목표 언어 간 병렬 코퍼스를, 구어어와 목표 언어 간의 새로운 병렬 코퍼스로 변환한다.
변환 과정에서 의미적 및 문법적 관계를 유지하여 고품질의 합성 병렬 문장을 확보한다.
기존 병렬 데이터 외에 합성 구어어 병렬 데이터를 활용해 신경 기계 번역 모델을 훈련시킨다.
추가 병렬 단일 언어 데이터가 필요 없이도 다양한 언어 변형, 예를 들어 슬랭이나 밀접하게 관련된 언어에 대해 적응 가능하도록 한다.

실험 결과

연구 질문

RQ1문자어 병렬 코퍼스에서 단일 언어 임베딩만을 사용해 합성 구어어 병렬 데이터를 효과적으로 생성할 수 있는가?
RQ2합성 데이터가 저자원 구어어에 대한 신경 기계 번역 성능에 어느 정도 향상시키는가?
RQ3제안된 방법이 슬랭이나 밀접하게 관련된 언어를 포함한 다양한 언어 변형에 대해 얼마나 일반화 가능한가?
RQ4합성 데이터가 번역 시스템 성능 향상에 기여하기 위해 충분한 언어적 품질을 유지하는가?
RQ5추가 병렬 단일 언어 또는 병렬 구어어 데이터가 필요 없이도 메트릭 점수(예: BLEU)를 크게 향상시킬 수 있는가?

주요 결과

제안된 방법은 단일 언어 임베딩만을 사용해 문어어와 구어어 간 고품질의 합성 병렬 데이터를 성공적으로 생성한다.
합성 데이터는 대규모 신경 기계 번역 시스템에서 레반틴어에서 영어로의 번역에서 2.8 BLEU 이상의 성능 향상을 이끌어낸다.
이 방법은 언어에 종속되지 않으며, 슬랭이나 밀접하게 관련된 언어를 포함한 모든 구어어 변형에 적용 가능하다.
병렬 단일 언어 데이터나 추가 병렬 코퍼스가 필요 없어, 저자원 환경에서 확장 가능하고 실용적이다.
성능 향상은 병렬 학습 데이터가 극히 적은 구어어에 대한 신뢰할 수 있는 번역 시스템을 구축하기 위한 합성 데이터의 타당성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.