QUICK REVIEW

[論文レビュー] A Teacher-Student Framework for Zero-Resource Neural Machine Translation

Yun Chen, Yang Liu|arXiv (Cornell University)|May 2, 2017

Natural Language Processing Techniques参考文献 29被引用数 104

ひとこと要約

本論文は、pivot-to-targetの教師モデルを用いてソース-ピボットコーパスを学習に導くことで、並列データなしで source-to-target の NMT モデルを訓練する教師-生徒フレームワークを提案し、pivotベースのベースラインよりゼロリソース翻訳の品質を改善する。

ABSTRACT

While end-to-end neural machine translation (NMT) has made remarkable progress recently, it still suffers from the data scarcity problem for low-resource language pairs and domains. In this paper, we propose a method for zero-resource NMT by assuming that parallel sentences have close probabilities of generating a sentence in a third language. Based on this assumption, our method is able to train a source-to-target NMT model ("student") without parallel corpora available, guided by an existing pivot-to-target NMT model ("teacher") on a source-pivot parallel corpus. Experimental results show that the proposed method significantly improves over a baseline pivot-based model by +3.0 BLEU points across various language pairs.

研究の動機と目的

低リソース言語ペアの並列データが限られていることによるゼロリソースNMTの動機付け。
pivot-to-target教師を用いてソース-to-target生徒モデルを導く教師-生徒フレームワークを提案。
並列文が第三言語文を生成する確率が近いという仮定を検証し、知識伝達を可能にする。
EuroparlおよびWMTデータセットでpivotベースのベースラインに対して翻訳品質とデコード効率の改善を示す。

提案手法

並列文が第三言語文を生成する確率が近いと仮定し、x–yの並列データなしで直接ソース-to-target学習を可能にする。
D_{z,y} 上で固定の pivot-to-target 教師モデルを訓練し、D_{x,z} 上で文レベルKL発散 (J_SENT) または語レベルKL発散 (J_WORD) によって生徒モデルを導く。
文レベルの学習目標は D_{x,z} に対して KL(P(y|z;θ̂_{z→y}) || P(y|x;θ_{x→y})) を最小化する。
語レベルの学習目標は語彙内の y および y の位置 j に対して KL(P(y|z,y_<j;θ̂_{z→y}) || P(y|x,y_<j;θ_{x→y})) を最小化して合計する。
全空間 KL 最適化が困難なため、ビーム/モードなどでターゲット空間を制限して勾配を近似する。
訓練後の翻訳には標準のNMTデコーディングを P(y|x;θ_{x→y}) を用いて行う。

実験結果

リサーチクエスチョン

RQ1x–y 並列データなしで pivot-to-target NMT モデルが source-to-target モデルを教育できるか？
RQ2文レベルと語レベルの教育アプローチは教師から生徒へ知識を効果的に転移できるか？
RQ3提案手法は BLEU とデコード効率の点で pivot ベースおよび多言語ゼロリソース手法と比較してどうか？
RQ4教師-生徒フレームワークは Europarl および WMT データセットと複数の言語ペアで頑健か？
RQ5近似推論（k-best、mode、sampling）を訓練と翻訳品質に与える影響は？

主な発見

語レベルの教育をサンプリングとともに適用すると、Europarl の Es-Fr で pivot ベースのゼロリソースベースラインを最大 +3.29 BLEU、De-Fr で +3.24 BLEU 上回る。
文レベルのビームベース教育も pivot ベースのベースラインを上回るが、訓練時間が長くなる。
Europarl 全体で、sent-beam と word-sampling の双方が pivot ベース手法を上回り、特に word-sampling が最高の BLEU を達成（Es-Fr: テストで 27.03、De-Fr: テストで 25.15 の特定設定）する。
大規模な WMT Es-Fr タスクでは、word-sampling 手法が pivot および多対one のベースラインを顕著に上回る（例：Newstest2012 で pivot より +3.46 BLEU）。
提案手法は、小規模な source-target 並列コーパスを使用する尤度ベースの手法をゼロリソース設定下で上回ることができる。
方法の前提（文レベルおよび語レベルでの P(y|x) と P(y|z) の近さ）は、訓練中の KL 発散を低減することで実証的に検証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。