Skip to main content
QUICK REVIEW

[論文レビュー] Synthetic Spoken Data for Neural Machine Translation.

Hany Hassan, Mostafa ElAraby|arXiv (Cornell University)|Jul 1, 2017
Natural Language Processing Techniques被引用数 2
ひとこと要約

本論文は、単語埋め込み表現の局所的埋め込み投影を用いて、言語に依存しない手法により、神経機械翻訳のための合成された話言語並列データを生成することを提案する。書言語の並列コーパスを話言語のバリエーションに変換することで、レバノン語圏語→英語翻訳において2.8 BLEU点以上の翻訳性能向上を達成し、低リソースな話言語向けの効果的なNMTを可能にする。

ABSTRACT

Spoken language translation is usually limited by the non-availability of the parallel data. We generate synthetic data for Neural Machine Translation of Spoken-Dialects. We introduce a novel approach to generate synthetic data for training Neural Machine Translation systems. The proposed approach transforms a given parallel corpus between a written language and a target language to a parallel corpus between a spoken dialect variant and the target language. In this paper, we introduce a novel approach to generate synthetic data for training Neural Machine Translation systems. The proposed approach transforms a given parallel corpus between a written language and a target language to a parallel corpus between a spoken dialect variant and the target language. Our approach is language independent and can be used to generate data for any variant of the source language such as slang or spoken dialect or even for a different language that is closely related to the source language. The proposed approach is based on local embedding projection of distributed representations which utilizes monolingual embeddings to transform parallel data across language variants. We report experimental results on Levantine to English translation using Neural Machine Translation. We show that the generated data can improve a very large scale system by more than 2.8 Bleu points using synthetic spoken data which shows that it can be used to provide a reliable translation system for a spoken dialect that does not have sufficient parallel data.

研究の動機と目的

  • 神経機械翻訳における話言語の並列学習データの不足を解決すること。
  • 十分な並列コーパスが存在しない低リソースな話言語向けに信頼性の高い翻訳システムを実現すること。
  • 書言語と話言語のバリエーションの間で並列データを合成する、言語に依存しないアプローチを開発すること。
  • 並列学習データを必要とせず、単語埋め込み表現を用いて言語バリエーション間で並列データを投影すること。
  • 大規模翻訳システムにおける合成データの有効性を実証すること。

提案手法

  • 書言語および目的の話言語の両方の単語埋め込み表現(分散表現)を、それぞれの単語コーパスから取得する。
  • アライメント情報を利用して、書言語空間の単語ベクトルを話言語空間に局所的埋め込み投影によりマッピングする。
  • 既存の書言語とターゲット言語間の並列コーパスを、話言語とターゲット言語間の新しい並列コーパスに変換する。
  • 変換中に意味的および構文的関係を保持することで、高品質な合成並列文を確保する。
  • 既存の並列データに加えて、合成された話言語並列データでニューラル機械翻訳モデルを学習する。
  • 追加の並列データを必要とせず、スラングや密接に関連する言語など、任意の言語バリエーションに適応可能であることを保証する。

実験結果

リサーチクエスチョン

  • RQ1単語埋め込み表現のみを用いて、書言語並列コーパスから合成された話言語並列データを効果的に生成できるか?
  • RQ2合成データは、低リソースな話言語向けの神経機械翻訳性能をどの程度向上させるか?
  • RQ3本手法は、スラングや密接に関連する言語を含む、さまざまな言語バリエーションに一般化可能か?
  • RQ4合成データは、翻訳システムの性能向上に十分な言語的品質を維持しているか?
  • RQ5追加の並列単語コーパスや並列話言語データを必要とせず、有意義なBLEUスコアの向上を達成できるか?

主な発見

  • 提案手法は、単語埋め込み表現のみを用いて、書言語と話言語の間で高品質な合成並列データを生成することに成功した。
  • 合成データは、レバノン語圏語→英語翻訳において、大規模な神経機械翻訳システムの性能を2.8 BLEU点以上向上させた。
  • 本手法は言語に依存せず、スラングや密接に関連する言語を含む任意の話言語バリエーションに適用可能である。
  • 並列単語コーパスや追加の並列コーパスを必要としないため、低リソース環境においてスケーラブルで実用的である。
  • 性能向上の結果から、最小限の並列学習データで信頼性の高い話言語翻訳システムを構築するための合成データの有効性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。