Skip to main content
QUICK REVIEW

[論文レビュー] Bridging Neural Machine Translation and Bilingual Dictionaries

Jiajun Zhang, Chengqing Zong|arXiv (Cornell University)|Oct 24, 2016
Natural Language Processing Techniques参考文献 33被引用数 46
ひとこと要約

本稿では、神経機械翻訳(NMT)に二語対訳辞書を統合する2つの手法を提案する。特に、希少語や未知語(OOV)を含む辞書を対象としている。最初の手法は、希少語を文字列に再エンコードする混合語/文字モデルを用いる。第二の手法は、翻訳語彙の頻繁な露出を保証するため、擬似文対を合成する。実験の結果、両手法とも翻訳品質を顕著に向上させ、辞書にカバーされている場合、70%以上の希少語や未観測語が正しく翻訳された。

ABSTRACT

Neural Machine Translation (NMT) has become the new state-of-the-art in several language pairs. However, it remains a challenging problem how to integrate NMT with a bilingual dictionary which mainly contains words rarely or never seen in the bilingual training data. In this paper, we propose two methods to bridge NMT and the bilingual dictionaries. The core idea behind is to design novel models that transform the bilingual dictionaries into adequate sentence pairs, so that NMT can distil latent bilingual mappings from the ample and repetitive phenomena. One method leverages a mixed word/character model and the other attempts at synthesizing parallel sentences guaranteeing massive occurrence of the translation lexicon. Extensive experiments demonstrate that the proposed methods can remarkably improve the translation quality, and most of the rare words in the test sentences can obtain correct translations if they are covered by the dictionary.

研究の動機と目的

  • 神経機械翻訳(NMT)における希少語や未知語(OOV)の翻訳の課題に対処すること、特にこれらの語が訓練データに存在しない場合を想定する。
  • 並列訓練データにほとんどまたはまったく登場しない語を含む二語対訳辞書を、NMTシステムに統合すること。
  • 翻訳語彙の大量かつ反復的な露出を保証するデータ変換メカニズムを設計し、NMTが正確な二国語対応マッピングを学習できるようにすること。
  • 特に低頻度語や未観測語の処理において、強力なベースラインNMTモデルを上回ること。
  • 擬似データと文字レベルのモデリングが、希少語の翻訳品質を実際に効果的に向上させられるかどうかを評価すること。

提案手法

  • 希少語やOOV語を、語と文字の両方のモデルで再ラベル付けする混合語/文字モデルを提案し、NMTがサブワードレベルの翻訳マッピングを学習できるようにする。
  • 各翻訳語彙ペアに対して大規模な擬似文対を生成するデータ合成モデルを設計し、訓練中に希少語の翻訳が頻繁に出現するように保証する。
  • スタックドLSTMを用いた注意機構付きNMTをベースモデルとして採用し、文脈ベクトルはスタックドLSTM層を介して計算し、デコード段階で注意機構を適用する。
  • OOV語を文字レベルでエンコードすることで、未観測の語形に対しても一般化できるようにする。
  • 混合モデルとデータ合成モデルを統合したハイブリッドアプローチを構築し、両者の長所を活かしてより高い耐性とカバー率を実現する。
  • 二段階訓練戦略を採用:まず擬似データで事前学習し、その後本物の二語対訳データで微調整することで、SMTによる翻訳から生じるノイズを最小限に抑える。

実験結果

リサーチクエスチョン

  • RQ1データ変換によって希少語やOOV語が訓練データに頻繁に出現するようにすれば、NMTがそれらの翻訳マッピングを効果的に学習できるか?
  • RQ2二語対訳辞書をNMTに統合する際、混合語/文字モデルとデータ合成ベースのアプローチの性能は、どのように比較できるか?
  • RQ3擬似文対は、元の訓練データに存在しない希少語の翻訳品質をどの程度向上させられるか?
  • RQ4混合モデルとデータ合成モデルを組み合わせることで、単独で使用する場合よりも優れた結果が得られるか?
  • RQ5提案手法は、特に未知語の処理において、強力なベースラインNMTモデルを顕著に上回る成果を上げられるか?

主な発見

  • データ合成モデルは、混合語/文字モデルを顕著に上回り、希少語やOOV語の翻訳において高いBLEUスコアを達成した。
  • データ合成と混合モデリングを組み合わせた統合モデルが、全体として最も優れた性能を示し、語彙サイズを制限した状況でベースラインNMTより0.88 BLEUポイント高いスコアを記録した。
  • テストセットに含まれる希少語や未観測語の70%以上が、二語対訳辞書にカバーされていれば正しく翻訳された。これは、OOV語への一般化能力が非常に高いことを示している。
  • 性能向上は語彙サイズの増加によるものではない。語彙サイズを制限した制御実験では0.88 BLEUポイントのスコア低下が確認され、提案手法の有効性が裏付けられた。
  • SMTによる翻訳で生成されたノイズを含む擬似データを用いた手法は、それでも辞書知識を効果的に統合でき、実用的であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。