QUICK REVIEW

[論文レビュー] On Using Very Large Target Vocabulary for Neural Machine Translation

Sébastien Jean, Kyunghyun Cho|arXiv (Cornell University)|Dec 5, 2014

Natural Language Processing Techniques被引用数 56

ひとこと要約

本論文では、トレーニングの複雑さを増さずに非常に大きなターゲット語彙を用いることができる、重要度サンプリングに基づくトレーニング手法を提案する。出力確率分布における正規化項を近似することで、フル語彙またはプルーニング済み語彙を用いた効率的なトレーニングとデコードが可能となり、WMT’14 英語→フランス語および英語→ドイツ語翻訳タスクにおいて、最先端のBLEUスコアを達成した。これは、従来の単一モデルNMTシステムを最大1 BLEUポイント上回った。

ABSTRACT

Neural machine translation, a recently proposed approach to machine translation based purely on neural networks, has shown promising results compared to the existing approaches such as phrase-based statistical machine translation. Despite its recent success, neural machine translation has its limitation in handling a larger vocabulary, as training complexity as well as decoding complexity increase proportionally to the number of target words. In this paper, we propose a method that allows us to use a very large target vocabulary without increasing training complexity, based on importance sampling. We show that decoding can be efficiently done even with the model having a very large target vocabulary by selecting only a small subset of the whole target vocabulary. The models trained by the proposed approach are empirically found to outperform the baseline models with a small vocabulary as well as the LSTM-based neural machine translation models. Furthermore, when we use the ensemble of a few models with very large target vocabularies, we achieve the state-of-the-art translation performance (measured by BLEU) on the English->German translation and almost as high performance as state-of-the-art English->French translation system.

研究の動機と目的

ニューラル機械翻訳（NMT）が、高いトレーニングおよびデコードの複雑さのため、大きなターゲット語彙を扱う能力に制限を受ける問題に対処すること。
フルで大きなターゲット語彙を用いても、計算コストが低く抑えられるトレーニングアルゴリズムを開発すること。
推論時に、フル語彙から小さなサブセットのみを選択することで、デコードを効率化すること。
標準的な翻訳ベンチマーク上で、大きな語彙を用いてトレーニングされたモデルが、制限付き語彙を用いたモデルよりも優れた性能を示すかどうかを実証的に評価すること。

提案手法

本手法は、出力確率分布における正規化定数を近似するために、バイアス付き重要度サンプリングを用いる。これにより、トレーニング中に全ターゲット語彙の上での確率計算を回避できる。
重要度サンプリング方式では、モデルの現在の予測に基づく提案分布を用いて、モデルパラメータに関する対数尤度の勾配を推定する。
トレーニングの目的関数は、フルソフトマックスの確率的近似を用いるように変更され、計算コストがターゲット語の小さなサブセットにまで削減される。
推論時には、各ソース文ごとにサイズK'の動的候補リストを、フル語彙から尤度スコアに基づいて選択してデコードを行う。
モデルアーキテクチャは、Bahdanauら（2014）のアテンションベースのエンコーダデコーダフレームワークに従い、大規模語彙トレーニングをサポートするように出力層を変更する。
複数のソース文に対して共通の候補リストを事前に計算することで、各シーケンスの再計算オーバーヘッドを低減し、ベースラインモデルと同等のデコード速度を維持する。

実験結果

リサーチクエスチョン

RQ1非常に大きなターゲット語彙を用いても、トレーニングの複雑さを増さずに、ニューラル機械翻訳モデルを効率的にトレーニングできるか？
RQ2制限付き語彙を用いたモデルと比較して、より大きなターゲット語彙を用いることで翻訳パフォーマンスが向上するか？
RQ3選択的候補サンプリングを用いることで、フルまたはほぼフルのターゲット語彙を用いた場合でもデコードを効率化できるか？
RQ4WMT’14のような標準ベンチマークにおいて、重要度サンプリングを用いてトレーニングされたモデルのパフォーマンスは、最先端システムと比較してどうなるか？
RQ5推論時のターゲット語彙サイズの選択は、トレーニング時の語彙サイズと相関しているか？

主な発見

提案手法は、WMT’14 英語→フランス語翻訳タスクで38.3のBLEUスコアを達成し、Luongら（2014）が報告した最良の単一モデルNMTシステムを約1 BLEUポイント上回った。
英語→ドイツ語タスクでは、最良のモデルが21.59のBLEUスコアを達成し、Buckら（2014）が報告した以前の最先端の20.67を上回った。
非常に大きなターゲット語彙を用いたアンサンブルモデルは、WMT’14 英語→フランス語タスクで最良のシステムから0.3 BLEUポイント以内の性能を達成した。
複数の文に対して共通の候補リストを用いることで、デコード速度をベースライン水準に近づけることができ、効率性が維持された。
τ = 30,000でトレーニングし、K = 50,000の候補でテストしたモデルは、K' = 1の場合に比べて0.2 BLEUポイントのスコア向上を示した。これは、トレーニング語彙が大きい場合、より大きな候補集合がパフォーマンス向上に寄与することを示している。
トレーニングと推論における語彙サイズの整合性がパフォーマンスに敏感に影響することが判明し、両者が類似している場合に最も良い結果が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。