QUICK REVIEW

[論文レビュー] Phrase-Based & Neural Unsupervised Machine Translation.

Guillaume Lample, Myle Ott|arXiv (Cornell University)|Apr 20, 2018

Natural Language Processing Techniques参考文献 41被引用数 232

ひとこと要約

この論文は、三つの根幹的原則に裏打ちされた、フレーズベースでニューラルな教師なし機械翻訳フレームワークを提案する。その原則は (1) 双語辞書による初期化、(2) 言語モデルによるノイズ除去、(3) イタレーションによるバックトランスレーションである。本手法は、平行文書を一切使用せず、WMT’14 英仏翻訳で 28.1 BLEU、WMT’16 ドイツ英翻訳で 25.2 BLEU の最先端の結果を達成し、先行する教師なし手法を 11 BLEU 点以上上回った。

ABSTRACT

Machine translation systems achieve near human-level performance on some languages, yet their effectiveness strongly relies on the availability of large amounts of parallel sentences, which hinders their applicability to the majority of language pairs. This work investigates how to learn to translate when having access to only large monolingual corpora in each language. We propose two model variants, a neural and a phrase-based model. Both versions leverage a careful initialization of the parameters, the denoising effect of language models and automatic generation of parallel data by iterative back-translation. These models are significantly better than methods from the literature, while being simpler and having fewer hyper-parameters. On the widely used WMT'14 English-French and WMT'16 German-English benchmarks, our models respectively obtain 28.1 and 25.2 BLEU points without using a single parallel sentence, outperforming the state of the art by more than 11 BLEU points. On low-resource languages like English-Urdu and English-Romanian, our methods achieve even better results than semi-supervised and supervised approaches leveraging the paucity of available bitexts. Our code for NMT and PBSMT is publicly available.

研究の動機と目的

並列モノリンガルデータに依存しない低リソースおよびゼロショット機械翻訳の課題に対処する。
並列コーパスが最小限または存在しない低リソース言語対におけるデータ不足問題を克服する。
一般化性能と学習安定性を向上させる、統一的で原理的根拠のある教師なし機械翻訳アプローチを開発する。
適切に初期化され正則化された場合、フレーズベースモデルが完全に教師なし環境でニューラルモデルを上回ることを示す。
教師なし機械翻訳の適用範囲を、英ウルドゥ語および英ルーマニア語など低リソースおよび距離の遠い言語対へ拡張する。

提案手法

モノリンガルコーパスを用いてクロスリンガル単語埋め込みのアライメントから推定された双語辞書でモデルを初期化する。
言語モデル化の目的関数を用いて、シーケンス・ツー・シーケンスモデルが汚損された入力文を再構築するように訓練することで、ノイズ除去自己符号化を実装する。
イタレーションによるバックトランスレーションを実装：元の言語からターゲット言語へのモデルを用いて合成されたターゲット文を生成し、その後その生成ペアでターゲットから元の言語へのモデルを学習する。
両方向のエンコーダー埋め込みを束ねることで、言語間で共有される潜在表現を強制する。
再構築損失を信号として用い、源言語からターゲット言語へ、そして再び元の言語へとバックトランスレーションするサイクルで、両モデルを同時に学習する。
PBSMT では、ニューラル推定による双語 n-gram 辞書でフレーズテーブルを初期化し、バックトランスレーションを適用して反復的に翻訳テーブルを最適化する。

実験結果

リサーチクエスチョン

RQ1教師なしニューラルおよびフレーズベース機械翻訳システムは、完全に並列文を一切使用せずに最先端の性能を達成できるか？
RQ2言語モデル化とノイズ除去自己符号化は、教師なし翻訳品質をどのように向上させるか？
RQ3合成された並列データを用いたイタレーションによるバックトランスレーションは、ゼロショット翻訳性能を顕著に向上させるか？
RQ4適切に初期化され正則化された場合、フレーズベースモデルは教師なし環境でニューラルモデルを上回る性能を示せるか？
RQ5英ウルドゥ語および英ルーマニア語のような低リソースおよび距離の遠い言語対において、これらの手法はどの程度効果的か？

主な発見

提案されたニューラルモデルは、WMT’14 英仏翻訳で 28.1 BLEU、WMT’16 ドイツ英翻訳で 25.2 BLEU を達成し、先行する教師なし手法を 11 BLEU 点以上上回った。
フレーズベースシステムは、標準ベンチマークで最大 12 BLEU 点の向上を達成し、しばしばニューラルモデルの性能を上回るか同等の性能を示した。
英ウルドゥ語および英ルーマニア語のような低リソース言語対において、本手法は限定的な並列データを用いた半教師ありおよび教師ありベースラインを上回った。
アブレーションスタディにより、バックトランスレーションと自己符号化が不可欠な要素であることが確認された。それらを除去すると、モデルは学習に失敗した。
連結されたモノリンガルコーパス上でバイトペア符号化（BPE）埋め込みを学習することで、先行研究比で 7 BLEU 点の性能向上が達成された。
イタレーションによるバックトランスレーションプロセスは収束し、複数のイタレーションにわたり翻訳品質が着実に向上し、500万文の生成でも改善が観察された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。