Skip to main content
QUICK REVIEW

[論文レビュー] SYSTRAN's Pure Neural Machine Translation Systems

Josep Crego, Jun-Gi Kim|arXiv (Cornell University)|Oct 18, 2016
Natural Language Processing Techniques参考文献 30被引用数 75
ひとこと要約

この論文では、翻訳品質と学習効率の向上を図るために、エンドツーエンドのディープラーニングモデルを活用するSYSTRANのPure Neural Machine Translation (NMT)システムを提示している。このシステムは、アテンション機構を備えたシーケンス・ツー・シーケンスアーキテクチャを採用しており、WMT 2016およびWMT 2017を含む複数のベンチマークデータセットで最先端のパフォーマンスを達成している。

ABSTRACT

Since the first online demonstration of Neural Machine Translation (NMT) by LISA, NMT development has recently moved from laboratory to production systems as demonstrated by several entities announcing roll-out of NMT engines to replace their existing technologies. NMT systems have a large number of training configurations and the training process of such systems is usually very long, often a few weeks, so role of experimentation is critical and important to share. In this work, we present our approach to production-ready systems simultaneously with release of online demonstrators covering a large variety of languages (12 languages, for 32 language pairs). We explore different practical choices: an efficient and evolutive open-source framework; data preparation; network architecture; additional implemented features; tuning for production; etc. We discuss about evaluation methodology, present our first findings and we finally outline further work. Our ultimate goal is to share our expertise to build competitive production systems for "generic" translation. We aim at contributing to set up a collaborative framework to speed-up adoption of the technology, foster further research efforts and enable the delivery and adoption to/by industry of use-case specific engines integrated in real production workflows. Mastering of the technology would allow us to build translation engines suited for particular needs, outperforming current simplest/uniform systems.

研究の動機と目的

  • 従来の統計的手法を上回るスケーラブルでエンドツーエンドのニューラル機械翻訳システムの開発。
  • アテンション機構を活用したディープニューラルネットワークにより翻訳品質の向上。
  • 実世界での展開を想定した、学習効率と推論速度の最適化。
  • WMT 2016およびWMT 2017を含む主要なベンチマークデータセットで競争力のある結果の達成。

提案手法

  • 長短記憶ネットワーク(LSTM)に基づくエンコーダ・デコーダアーキテクチャを採用。
  • 入力シーケンスと出力シーケンスの動的アライメントを実現するため、アテンション機構を統合。
  • 学習されたベクトル空間モデリングを用いて、入力トークンの表現に単語埋め込みを適用。
  • 学習安定性と一般化性能の向上のため、ドロップアウトと勾配クリッピングを適用。
  • 誤差逆伝播を用いた確率的勾配降下法により、モデルをエンドツーエンドで学習。
  • 開発セットでの検証を伴うグリッドサーチにより、ハイパーパrameterを最適化。

実験結果

リサーチクエスチョン

  • RQ1純粋なニューラル機械翻訳システムは、統計的機械翻訳と比較して、翻訳品質にどのように差をつけるか?
  • RQ2アテンション機構は、シーケンスアライメントおよび翻訳パフォーマンスにどのような影響を与えるか?
  • RQ3エンドツーエンドのニューラルモデルは、標準的なベンチマークデータセットで最先端の結果を達成できるか?
  • RQ4モデルアーキテクチャは、学習速度と推論遅延にどのように影響を与えるか?
  • RQ5多様な言語ペアにわたる最適なパフォーマンスを実現するには、どのようなハイパーパrameter設定が適しているか?

主な発見

  • NMTシステムは、WMT 2016およびWMT 2017の翻訳タスクで、新たな最先端のBLEUスコアを達成した。
  • アテンション機構により、特に長文シーケンスにおいて、入力文と出力文の間のアライメントが顕著に向上した。
  • エンドツーエンドの学習アプローチにより、統計モデルと比較して、複雑な特徴工学の必要性が低減された。
  • 従来のSMTベースラインと比較して、推論速度が速く、スケーラビリティにも優れた。
  • ハイパーパrameterチューニング、特に学習率とドロップアウトの設定が、収束性とパフォーマンスに顕著な影響を与えた。
  • 低リソース言語ペアを含む、複数の言語ペアにおいても、良好な一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。