[論文レビュー] Using Self-Training to Improve Back-Translation in Low Resource Neural Machine Translation
本稿では、自己学習アプローチを提案し、低資源ニューラル機械翻訳における裏返し翻訳モデルの反復的改善を、自身の出力を利用して自己精錬することで、より高品質な合成並列データを生成する。この手法により、IWSLT'14 英語=ドイツ語モデルは 11.06 BLEU 向上し、標準的な裏返し翻訳よりも前向き翻訳性能が 2.7 BLEU 向上する。
Improving neural machine translation (NMT) models using the back-translations of the monolingual target data (synthetic parallel data) is currently the state-of-the-art approach for training improved translation systems. The quality of the backward system - which is trained on the available parallel data and used for the back-translation - has been shown in many studies to affect the performance of the final NMT model. In low resource conditions, the available parallel data is usually not enough to train a backward model that can produce the qualitative synthetic data needed to train a standard translation model. This work proposes a self-training strategy where the output of the backward model is used to improve the model itself through the forward translation technique. The technique was shown to improve baseline low resource IWSLT'14 English-German and IWSLT'15 English-Vietnamese backward translation models by 11.06 and 1.5 BLEUs respectively. The synthetic data generated by the improved English-German backward model was used to train a forward model which out-performed another forward model trained using standard back-translation by 2.7 BLEU.
研究の動機と目的
- 限定的な並列学習データによる低資源ニューラル機械翻訳における、裏返し翻訳品質の低さという課題に対処すること。
- 裏返し翻訳によって生成される合成並列データの品質を、裏返しモデルを段階的に精錬することで向上させること。
- 改善された裏返しモデルから得られるより良い合成データを用いて、最終的な前向き翻訳モデルの性能を向上させること。
- 自己学習によって裏返しモデルの出力に適用することで、低資源環境において測定可能な向上が得られることを示すこと。
提案手法
- まず、低資源環境で利用可能な限定的な並列データに基づいて裏返しモデルを訓練する。
- 訓練済みの裏返しモデルが、ソース側の単語単位のモノリンガルデータを翻訳することで、合成されたターゲット側のモノリンガル文を生成する。
- モノリンガルデータに対する自身の予測結果(偽のターゲット)を用いて、自己学習を適用することで、モデルを微調整し、耐性と品質を向上させる。
- 精錬された裏返しモデルが、より高品質な合成並列データを生成し、これを再び前向き翻訳モデルの訓練に使用する。
- 前向きモデルは、実際の並列データと、自己学習された裏返しモデルから得られた改善された合成データの両方を用いて訓練される。
- 前向き翻訳の能力を活用して、反復的に裏返しモデルを改善するフィードバックループを構築し、品質向上を図る。
実験結果
リサーチクエスチョン
- RQ1裏返しモデルの自身の出力に対して自己学習を適用することで、低資源ニューラル機械翻訳におけるその性能向上が図れるか?
- RQ2裏返しモデルの向上が、前向き翻訳のための高品質な合成並列データの生成に寄与するか?
- RQ3向上した合成データが、最終的な前向き翻訳モデルの性能にどの程度寄与するか?
- RQ4BLEU スコアの向上という観点から、提案手法は標準的な裏返し翻訳と比べてどの程度優れているか?
主な発見
- 自己学習手法により、IWSLT'14 英語=ドイツ語の裏返し翻訳モデルが 11.06 BLEU ポイント向上した。
- IWSLT'15 英語=ベトナム語の裏返しモデルは、自己学習によって 1.5 BLEU の向上を達成した。
- 改善された裏返しモデルが生成した合成データにより、標準的な裏返し翻訳と比較して、前向き翻訳モデルが 2.7 BLEU 向上した。
- 自己学習された裏返しモデルから得た合成データを用いて訓練された前向きモデルは、ベースラインの前向きモデルを上回った。
- 反復的に裏返しモデルを精錬することで、低資源並列データに起因する性能低下を効果的に緩和できる。
- 結果から、モデルの出力に対して自己学習を適用することは、合成データ品質と下流の翻訳性能を向上させる実用的な戦略であることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。