Skip to main content
QUICK REVIEW

[論文レビュー] A Hybrid Approach for Improved Low Resource Neural Machine Translation using Monolingual Data

Idris Abdulmumin, Bashir Shehu Galadanci|arXiv (Cornell University)|Jan 1, 2020
Natural Language Processing Techniques参考文献 67被引用数 2
ひとこと要約

この論文は、単語の翻訳データのみを用いて、低資源ニューラル機械翻訳(NMT)の性能を向上させるハイブリッド自己学習およびバックトランスレーション手法を提案する。反復的に合成データ上で自己学習によりバックワードモデルを改善し、それを用いてフォワードモデルのためのより高品質な訓練データを生成することで、標準的バックトランスレーションおよび反復的バックトランスレーションと比較して、モデルの複雑さと学習時間を削減しながら、英語=ドイツ語NMTで優れたBLEUスコアを達成する。

ABSTRACT

Many language pairs are low resource, meaning the amount and/or quality of available parallel data is not sufficient to train a neural machine translation (NMT) model which can reach an acceptable standard of accuracy. Many works have explored using the readily available monolingual data in either or both of the languages to improve the standard of translation models in low, and even high, resource languages. One of the most successful of such works is the back-translation that utilizes the translations of the target language monolingual data to increase the amount of the training data. The quality of the backward model which is trained on the available parallel data has been shown to determine the performance of the back-translation approach. Despite this, only the forward model is improved on the monolingual target data in standard back-translation. A previous study proposed an iterative back-translation approach for improving both models over several iterations. But unlike in the traditional back-translation, it relied on both the target and source monolingual data. This work, therefore, proposes a novel approach that enables both the backward and forward models to benefit from the monolingual target data through a hybrid of self-learning and back-translation respectively. Experimental results have shown the superiority of the proposed approach over the traditional back-translation method on English-German low resource neural machine translation. We also proposed an iterative self-learning approach that outperforms the iterative back-translation while also relying only on the monolingual target data and require the training of less models.

研究の動機と目的

  • 並列データが不足する低資源ニューラル機械翻訳(NMT)の課題に対処すること。
  • 低資源環境下で品質に依存する初期バックワードモデルに依存する標準的バックトランスレーションの制限を克服すること。
  • ハイブリッド自己学習およびバックトランスレーション戦略を用いて、単語の翻訳データのみを用いてフォワードモデルとバックワードモデルの両方を向上させること。
  • ソースの単語の翻訳データへの依存度を低く抑え、反復的アプローチにおける訓練対象モデルの数を最小限に抑えること。
  • 品質推定システムや並列データが不足する低資源言語に適用可能な現実的でスケーラブルな手法を開発すること。

提案手法

  • 初期バックワードモデル(x ← y)を用いて、単語の翻訳データから合成された並列文を生成する。
  • 合成データのみを用いて自己学習を適用し、バックワードモデルを反復的に再訓練することで、その品質を向上させる。
  • 改良されたバックワードモデルを用いて、フォワードモデル(x → y)の訓練のためのより高品質な合成データを生成する。
  • 自己学習において品質推定(QE)を統合し、信頼性の高い合成翻訳のみをフィルタリングして再訓練する。
  • 品質推定を排除し、合成データの順次的改善に依存する自己学習の反復的バージョンを実装する。
  • 本物の並列データに対する微調整の前に合成データで事前学習を行い、モデル性能を最適化する。

実験結果

リサーチクエスチョン

  • RQ1単語の翻訳データのみを用いて、ハイブリッド自己学習およびバックトランスレーション手法が低資源NMTの性能を向上させられるか?
  • RQ2自己学習をバックトランスレーションパイプラインに統合することで、合成データの品質および最終的な翻訳性能にどのような影響を与えるか?
  • RQ3品質推定を用いない反復的自己学習は、QEを強化した自己学習と同等の結果を達成できるか?
  • RQ4反復的バックトランスレーションと比較して、提案手法がモデル数と学習時間を削減しながらも、性能を維持または向上させられるか?
  • RQ5品質推定システムが欠如する低資源言語に対しても、このハイブリッド手法はスケーラブルで実用的か?

主な発見

  • 提案されたハイブリッド手法は、英語=ドイツ語の低資源NMTタスクにおいて、標準的バックトランスレーションを上回り、より高いBLEUスコアを達成した。
  • 品質推定を統合した反復的自己学習は最高の結果を出した。これは、高品質な合成翻訳をフィルタリングすることでモデル性能が向上することを示している。
  • 品質推定がなくても、反復的自己学習手法はQEを強化したバージョンと同等の性能を達成した。これは、低資源環境下でも実用的であることを証明している。
  • 簡素化された反復的自己学習バックトランスレーションアプローチにより、反復的バックトランスレーションと比較して必要なモデル数と学習時間が削減された。
  • 合成データで事前学習し、その後本物の並列データで微調整する戦略が、モデル最適化において最も効果的であることが判明した。
  • 単語の翻訳データのみを用いて、バックワードモデルとフォワードモデルの両方を効果的に向上させることができた。これは、低資源翻訳シナリオにおいて有効であることを証明している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。