Skip to main content
QUICK REVIEW

[論文レビュー] Soft Contextual Data Augmentation for Neural Machine Translation

Jinhua Zhu, Fei Gao|arXiv (Cornell University)|May 25, 2019
Topic Modeling参考文献 17被引用数 59
ひとこと要約

新規のソフト文脈データ拡張を導入し、語彙全体へのソフト分布でランダムに選択された単語を置換することで、事前学習済み言語モデルから得られる文脈情報を利用し、複数の翻訳タスクでBLEUを改善します。

ABSTRACT

While data augmentation is an important trick to boost the accuracy of deep learning methods in computer vision tasks, its study in natural language tasks is still very limited. In this paper, we present a novel data augmentation method for neural machine translation. Different from previous augmentation methods that randomly drop, swap or replace words with other words in a sentence, we softly augment a randomly chosen word in a sentence by its contextual mixture of multiple related words. More accurately, we replace the one-hot representation of a word by a distribution (provided by a language model) over the vocabulary, i.e., replacing the embedding of this word by a weighted combination of multiple semantically similar words. Since the weights of those words depend on the contextual information of the word to be replaced, the newly generated sentences capture much richer information than previous augmentation methods. Experimental results on both small scale and large scale machine translation datasets demonstrate the superiority of our method over strong baselines.

研究の動機と目的

  • Neural Machine Translationのデータ拡張を動機づけ、離散的な単語置換の限界に対処する。
  • 文脈情報を取り込むソフトで分布ベースの拡張を提案する。
  • 事前学習済み言語モデルを活用して文脈認識的な語彙分布を導出する。
  • 効果を示すために複数の言語ペアとデータセット規模で拡張を評価する。

提案手法

  • ランダムに選択した単語を、語彙全体に対する確率分布で表現するソフトな単語に置換する。
  • 前方の文脈を条件として、事前学習済み言語モデルからソフト単語P(w)を計算する。
  • ソフト単語を語彙の埋め込みの期待値としてエンベッドする:e_w = P(w)E。
  • 訓練中に確率γで拡張を適用し、ワンホットトークンの代わりにソフト表現を使用する。
  • 訓練後も言語モデルのパラメータを固定し、NMT Transformerアーキテクチャと統合する。
  • ランダムスワップ、ドロップアウト、空白トークン、ユニグラムベースの平滑化などのベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1ソフトコンテキスト拡張は、複数の言語ペアを横断して強力なベースラインより翻訳品質を向上させるか。
  • RQ2置換確率γは拡張の性能とロバスト性にどのように影響するか。
  • RQ3この方法は小規模データセットと大規模データセットの両方で効果的か。
  • RQ4ソフト拡張は離散拡張およびサンプリングベースの文脈拡張と比較してどうか。

主な発見

  • 4つの翻訳タスクにおいて、強力なTransformerベースラインに対して一貫したBLEUの増加を達成。
  • WMT 2014 En→Deでは、ベースシステムより+1.3BLEUを達成し、29.70 BLEUに到達。
  • ソフト拡張は全タスクで離散拡張手法を上回る。
  • γ値の範囲で性能はロバストで、De→Enではγ = 0.15付近で最も強い結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。