QUICK REVIEW

[論文レビュー] Translating Pro-Drop Languages with Reconstruction Models

Longyue Wang, Zhaopeng Tu|arXiv (Cornell University)|Jan 10, 2018

Natural Language Processing Techniques被引用数 23

ひとこと要約

本稿では、隠れ表現から省略された代名詞（DP）を明示的に回復するようにモデルを訓練することで、プロドロップ言語における神経機械翻訳（NMT）の性能を向上させる再構築ベースの手法を提案する。翻訳尤度と元の文のDPを含む再構築を同時に最適化することで、モデルは強化された潜在表現を学習し、推論コストをほとんど増加させずに中国語–英語で+1.35 BLEU、日本語–英語で+1.29 BLEUの向上を達成した。

ABSTRACT

Pronouns are frequently omitted in pro-drop languages, such as Chinese, generally leading to significant challenges with respect to the production of complete translations. To date, very little attention has been paid to the dropped pronoun (DP) problem within neural machine translation (NMT). In this work, we propose a novel reconstruction-based approach to alleviating DP translation problems for NMT models. Firstly, DPs within all source sentences are automatically annotated with parallel information extracted from the bilingual training corpus. Next, the annotated source sentence is reconstructed from hidden representations in the NMT model. With auxiliary training objectives, in terms of reconstruction scores, the parameters associated with the NMT model are guided to produce enhanced hidden representations that are encouraged as much as possible to embed annotated DP information. Experimental results on both Chinese-English and Japanese-English dialogue translation tasks show that the proposed approach significantly and consistently improves translation performance over a strong NMT baseline, which is directly built on the training data annotated with DPs.

研究の動機と目的

中国語や日本語のようなプロドロップ言語における省略代名詞（DP）の翻訳という、長年の課題に取り組むこと。
DPが頻繁に省かれる会話形式の非公式なテキストにおけるNMTパフォーマンスを向上させること。
再構築を通じてDP情報を埋め込むことで、NMTモデルの表現を強化する手法を開発すること。
再構築ベースの学習が、一般翻訳およびDP固有の翻訳品質の両方を向上させることの有効性を実証すること。
将来のプロドロップ言語翻訳研究のための、大規模な並列会話コーパス（220万文ペア）を公開すること。

提案手法

バイリンガルコーパスからのアライメント情報を用いて、並列学習データのソース側にDPをアノテートする。
各学習インスタンスを三つ組み（ソース文x、ターゲット文y、DPラベル付きソース文x̂）として表現する。
標準的なNMTエンコーダ–デコーダモデルを用いてxをyに翻訳し、エンコーダおよびデコーダの隠れ状態を抽出する。
再構築器を導入し、エンコーダおよび／またはデコーダの隠れ状態からDPラベル付きソース文x̂を再構築する。
翻訳尤度と再構築損失の重み付き和としての組み合わせ目的関数を最適化し、隠れ状態がDP情報を保持するようにガイドする。
推論時にも再構築を適用することで、推論コストをほとんど増加させずに翻訳品質をさらに向上させる。

実験結果

リサーチクエスチョン

RQ1再構築ベースの学習によって、DP情報を隠れ表現に組み込むことで、プロドロップ言語におけるNMTパフォーマンスが向上するか？
RQ2翻訳尤度とDP再構築損失の共同最適化が、翻訳品質およびBLEUスコアに与える影響は何か？
RQ3学習時のみに再構築を適用することで、デコード時間の増加を伴わずパラメータ学習が改善されるか？
RQ4提案手法が中国語–英語や日本語–英語といった異なるプロドロップ言語ペアに一般化可能か？
RQ5再構築が、複雑な代名詞的参照に対して、代名詞翻訳の正確性にどのような影響を与えるか？

主な発見

提案手法は、大規模な中国語–英語会話翻訳タスクにおいて、推論速度に変化を認めないまま+1.35 BLEUの翻訳パフォーマンス向上を達成した。
学習時および推論時両方で再構築を適用した場合、追加で+1.06 BLEUの向上が得られ、デコード速度は約18%低下したにとどまる。
日本語–英語翻訳タスクにおいても+1.29 BLEUの向上を達成し、異なる言語ペアへの一般化の有効性を示した。
定量的分析により、モデルがDP情報を埋め込んだより優れた潜在表現を学習していることが確認され、より正確な代名詞生成が可能になった。
主格代名詞の翻訳エラーが顕著に減少し、ベースラインNMTシステムと比較して誤訳が少なく、新たに発生する誤りも少ないことが明らかになった。
公開された220万文ペアの中国語–英語会話コーパスは、将来的なプロドロップ言語翻訳研究の貴重なベンチマークを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。