Skip to main content
QUICK REVIEW

[論文レビュー] Sockeye: A Toolkit for Neural Machine Translation

Felix Hieber, Tobias Domhan|arXiv (Cornell University)|Dec 15, 2017
Natural Language Processing Techniques参考文献 2被引用数 194
ひとこと要約

SOCKEYEは、三つの主要アーキテクチャ(アテンション付きRNN、Transformer、ConvSeq2Seq)を実装し、豊富な学習/推論機能を備え、WMTデータに対して他のツールキットとベンチマークを行う、MXNetベースのオープンソースPython NMTツールキットです。

ABSTRACT

We describe Sockeye (version 1.12), an open-source sequence-to-sequence toolkit for Neural Machine Translation (NMT). Sockeye is a production-ready framework for training and applying models as well as an experimental platform for researchers. Written in Python and built on MXNet, the toolkit offers scalable training and inference for the three most prominent encoder-decoder architectures: attentional recurrent neural networks, self-attentional transformers, and fully convolutional networks. Sockeye also supports a wide range of optimizers, normalization and regularization techniques, and inference improvements from current NMT literature. Users can easily run standard training recipes, explore different model settings, and incorporate new ideas. In this paper, we highlight Sockeye's features and benchmark it against other NMT toolkits on two language arcs from the 2017 Conference on Machine Translation (WMT): English-German and Latvian-English. We report competitive BLEU scores across all three architectures, including an overall best score for Sockeye's transformer implementation. To facilitate further comparison, we release all system outputs and training scripts used in our experiments. The Sockeye toolkit is free software released under the Apache 2.0 license.

研究の動機と目的

  • 提供する3つの主要なエンコーダ-デコーダアーキテクチャをサポートする生産可能で拡張性のあるNMTツールキット。
  • 標準的なWMTデータセットでSOCKEYEを他のNMTツールキットとベンチマークして翻訳品質と速度を評価。
  • 研究者が容易にNMTモデルを学習、比較、拡張できるよう、主要なモデリング、学習、および推論機能を説明。
  • 公平な比較を促進するための再現性のあるシステム出力と学習スクリプトを公開。

提案手法

  • 3つの主要なNMTアーキテクチャの実装:アテンション付きスタックRNN、自己注意型Transformer、Fully Convolutionalネットワーク。
  • レイヤー/ウェイト正規化、RNNアテンションのバリアント、カバレッジモデルの統合による学習の安定性と翻訳品質の向上。
  • オプティマイザ(Adam、Eve)、学習率スケジュール、正則化、多GPUサポートを含む総合的な学習機能。
  • ビームサーチ、アンサンブルデコード、バッチデコード、語彙選択、アテンションの視覚化を含む効率的な推論。
  • 評価データセット(EN→DE、LV→EN)をBLEUで評価し、OpenNMT、Marian、NEMATUS、NeuralMonkeyなどと比較。
  • モデル、出力、および学習スクリプトのオープンソース公開による再現性のある研究。

実験結果

リサーチクエスチョン

  • RQ13つの著名なNMTアーキテクチャ(RNN with attention、Transformer、ConvSeq2Seq)が、単一ツールキット環境で翻訳品質と速度をどの程度比較できるか。
  • RQ2どの学習、正則化、推論技術がアーキテクチャを跨いで生産準備完了のNMTを最もよくサポートするか。
  • RQ3SOCKEYEが標準のWMTデータセット(EN→DE、LV→EN)でBLEUと効率の点で他のオープンソースツールキットと比較してどの程度の性能を示すか。
  • RQ4研究者が再現可能な出力とスクリプトを用いてSOCKEYEを使ってモデルを容易に学習、比較、拡張できるか。

主な発見

ツールキットレイヤー EN→DEレイヤー LV→ENEN→DE BLEULV→EN BLEU
OPENNMT-LUA4/4-22.6913.85
OPENNMT-PY4/4-21.9513.55
MARIAN4/4-25.9316.19
NEMATUS8/8-23.7814.70
NEURALMONKEY1/1-13.7310.54
SOCKEYE4/4-25.5515.92
  • SOCKEYEは、RNNモデルのBLEUスコアが比較対象のベストツキットと同等の競合的なスコアを達成。
  • SOCKEYEのTransformer実装は、評価されたアーキテクチャの中で総合BLEUが最も高い。
  • SOCKEYEのConvSeq2Seqモデルは、ベンチマークで同クラスの中で最高のパフォーマンスを発揮。
  • SOCKEYEはさまざまな構成でデコード速度が競争力があるか、語彙選択によって大幅な速度向上が得られる。
  • 著者らは、公正な比較と再現性を促進するために、すべてのシステム出力と学習スクリプトを公開。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。