QUICK REVIEW

[論文レビュー] Incorporating Discrete Translation Lexicons into Neural Machine Translation

Philip Arthur, Graham Neubig|arXiv (Cornell University)|Jun 7, 2016

Natural Language Processing Techniques参考文献 33被引用数 35

ひとこと要約

本稿では、神経機械翻訳（NMT）に離散翻訳辞書を統合することで、低頻度の内容語の翻訳を改善することを提案する。アテンションベクトルを用いて関連する語彙確率を選択し、バイアスまたは線形補間を用いてそれらを統合する。この手法は、2.0–2.3 BLEUおよび0.13–0.44 NISTスコアの向上を達成し、収束が速い。

ABSTRACT

Neural machine translation (NMT) often makes mistakes in translating low-frequency content words that are essential to understanding the meaning of the sentence. We propose a method to alleviate this problem by augmenting NMT systems with discrete translation lexicons that efficiently encode translations of these low-frequency words. We describe a method to calculate the lexicon probability of the next word in the translation candidate by using the attention vector of the NMT model to select which source word lexical probabilities the model should focus on. We test two methods to combine this probability with the standard NMT probability: (1) using it as a bias, and (2) linear interpolation. Experiments on two corpora show an improvement of 2.0-2.3 BLEU and 0.13-0.44 NIST score, and faster convergence time.

研究の動機と目的

意味に大きな影響を与える低頻度の内容語の誤訳というNMTにおける長年の問題に対処する。
希少語に対して明示的で信頼性の高い翻訳確率を提供するため、離散翻訳辞書を活用する。
エンドツーエンド学習を損なわず、NMTモデルの予測と補完する形で語彙確率を統合する。
低リソースおよび低頻度語の文脈における翻訳品質と学習収束速度を向上させる。
語のアライメントや外部辞書を含む多様な語彙源からの辞書を評価する。

提案手法

NMTモデルのアテンションベクトルを用いて、語彙翻訳確率を次のターゲット語の予測確率に変換する。
デコード中、アテンションベクトルを用いてどのソース語の語彙確率に注目するかを動的に選択する。
語彙確率とNMTモデル出力を2通りの方法で統合する：(1) ソフトマックス層に学習可能なバイアスとして統合し、(2) NMT確率分布と線形補間する。
語のアライメント、外部辞書、または両者のハイブリッドを用いて語彙を構築する。
標準的なNMTアーキテクチャにアテンション機構を組み込み、英語–日本語翻訳タスクにこの手法を適用する。
開発データを用いて補間係数λを最適化するが、基本実験では文脈を超えて固定する。

実験結果

リサーチクエスチョン

RQ1離散翻訳辞書は、低頻度の内容語におけるNMT性能を向上させることができるか？
RQ2アテンション情報を利用することで、語彙確率を神経デコードプロセスに効果的に統合できるか？
RQ3バイアスまたは線形補間による語彙確率の統合は、標準NMTよりも優れた翻訳品質をもたらすか？
RQ4この手法は、低リソース語の学習収束速度と一般化性能を向上させられるか？
RQ5この手法は、より大規模で複雑なデータセットにもスケーリング可能か？

主な発見

2つの英語–日本語翻訳コーパスにおいて、ベースラインNMTモデル比で2.0–2.3 BLEUポイントの向上を達成した。
0.13–0.44のNISTスコア向上があり、内容語の翻訳品質が向上していることを示している。
バイアス統合法が線形補間を上回り、明示的な語彙制約が固定混合よりも効果的であることが示された。
学習収束時間が短縮され、語彙からの信号とより良い初期化のおかげで最適化が速くなった。
大規模データセットに対しても効果的にスケーリングされ、2MシーケンスのASPECデータセットではBLEUが20.82から22.66に向上した。
定性的な分析により、『Tunisia』のような国名のような低頻度内容語の翻訳が改善されたことが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。