[論文レビュー] Code-Switching for Enhancing NMT with Pre-Specified Translation
この論文は、ソース表現を事前に指定された翻訳に置換することによりコードスイッチング訓練データを作成するデータ拡張法を提案し、NMTモデルがターゲット言語の表現を直接コピーできるようにし、制約付き翻訳を向上させつつ非制約語に悪影響を与えない。En-RuとCh-Enの複数ドメインでプレースホルダーおよび lexical-constraint 法より一貫したBLEUの利得を示し、非制約文の性能を維持する。
Leveraging user-provided translation to constrain NMT has practical significance. Existing methods can be classified into two main categories, namely the use of placeholder tags for lexicon words and the use of hard constraints during decoding. Both methods can hurt translation fidelity for various reasons. We investigate a data augmentation method, making code-switched training data by replacing source phrases with their target translations. Our method does not change the MNT model or decoding algorithm, allowing the model to learn lexicon translations by copying source-side target words. Extensive experiments show that our method achieves consistent improvements over existing approaches, improving translation of constrained words without hurting unconstrained words.
研究の動機と目的
- ドメイン特化型NMTにおける制約の動機づけと、プレースホルダーおよび lexical-constraint 法の限界。
- NMTに事前に指定された翻訳をコピーすることを教えるコードスイッチングデータ拡張手法を導入。
- デコードに統合された共有埋め込みとポインタネットワークによりコピーを強化。
- 複数のドメインでEn-RuおよびCh-Enに対するベースラインより改善を示す。
提案手法
- SMT句テーブルを用いてソース表現を対応する翻訳に置換し、拡張並列データを構築。
- デコーダを変更せず、事前に指定された翻訳にソース表現を置換してデコードを前処理。
- コピーのための埋め込みを整列させるよう、ターゲット埋め込みをソース側のターゲット語と共有。
- デコーダにポインタネットワークを統合して、ソース側ターゲット語をコピー。
- 拡張データを元データと混合し、デコードアルゴリズムを変更せずに標準のTransformerを訓練。
- En-RuとCh-EnでBLEUで評価し、プレースホルダーおよび lexical-constraintのベースラインと比較。
実験結果
リサーチクエスチョン
- RQ1コードスイッチ訓練データはデコード時に事前に指定された翻訳を効果的にコピーできるようにNMTを導けるか?
- RQ2共有埋め込みとポインタネットワークはコピーと全体の翻訳品質を改善するか?
- RQ3この手法はドメイン間でプレースホルダーおよび lexical-constrained デコードとどのように比較されるか?
- RQ4この手法は非制約文の翻訳品質を維持するか?
主な発見
- 本手法は複数のテストセットとドメインにおいて、En-RuおよびCh-Enでプレースホルダーおよび lexical-constraint ベースラインより一貫した改善を示す。
- 英語–ロシア語ニュース分野では、平均BLEUはプレースホルダーより3.48、 lexical constraintsより2.94の利得。
- 英語–ロシア語eコマース分野では、平均BLEUはプレースホルダーより1.34、 lexical constraintsより2.63。
- 中国語–英語の口語ドメインセットでは、平均BLEUはプレースホルダーより1.35、 lexical constraintsより0.42。
- 共有埋め込みとポインタネットワークはコピーの成功と翻訳品質を向上させる。
- 非コードスイッチ文に対しても競争力を維持し、一部の非置換文でBLEUが同等またはわずかに改善。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。