QUICK REVIEW

[論文レビュー] Neural Reranking Improves Subjective Quality of Machine Translation: NAIST at WAT2015

Graham Neubig, Makoto Morishita|arXiv (Cornell University)|Oct 18, 2015

Natural Language Processing Techniques参考文献 22被引用数 40

ひとこと要約

本稿では、構文ベースの統計的機械翻訳（SMT）出力の文法的正しさと主観的品質を向上させるために、ニューラル機械翻訳（NMT）再順序付けを提案する。最先端のSMTシステムが生成するn-best仮説を、アテンションベースのNMTモデルを用いて再順序付けすることで、自動評価（BLEU、RIBES）および人的評価の両面で顕著な向上が達成された。主に語順の再配置、助動詞の挿入・削除、並列構造の誤解析、動詞の一致に関する文法的誤りの是正に起因するが、語彙選択の改善は限定的であった。

ABSTRACT

This year, the Nara Institute of Science and Technology (NAIST)'s submission to the 2015 Workshop on Asian Translation was based on syntax-based statistical machine translation, with the addition of a reranking component using neural attentional machine translation models. Experiments re-confirmed results from previous work stating that neural MT reranking provides a large gain in objective evaluation measures such as BLEU, and also confirmed for the first time that these results also carry over to manual evaluation. We further perform a detailed analysis of reasons for this increase, finding that the main contributions of the neural models lie in improvement of the grammatical correctness of the output, as opposed to improvements in lexical choice of content words.

研究の動機と目的

ニューラル再順序付けによる自動評価指標の向上が、人的評価による翻訳品質の向上にも対応するかを調査すること。
ニューラル再順序付けが是正する翻訳誤りの具体的な種別、特に文法的誤りと語彙的誤りの違いを分析すること。
n-bestリストサイズが再順序付け性能に与える影響を評価し、飽和点を特定すること。

提案手法

スケーリングされたSMTシステム（NAIST WAT2014）をベースラインとして用い、4つの言語対（ja-en、en-ja、ja-zh、zh-ja）のn-best翻訳仮説を生成する。
同じ平行コーパスを用いて、NMT尤度を特徴として含むロジスティック線形モデルに基づき、n-best仮説を再順序付けするアテンションベースのニューラル機械翻訳モデルを学習する。
再順序付けプロセスでは、NMT生成文尤度、BLEUスコア、言語モデルスコアを含む特徴を有するロジスティック線形モデルを用い、MERTを用いて最適化する。
ニューラルモデルは、双方向LSTMを用いてソース文を符号化し、ソース隠れ状態の重み付き和を用いてアテンションを計算することで、ターゲット語を逐次生成する。
アテンション機構は、ソース隠れ状態の重み付き和としてコンテキストベクトルを計算し、ソース語とターゲット語の対応付けを可能にする。
実験では、自動評価および人的評価スコアに与える影響を評価するために、n-bestリストサイズを1から1000まで変化させる。

実験結果

リサーチクエスチョン

RQ1ニューラル再順序付けは、BLEUなどの自動指標の向上に加え、翻訳品質に関する人的評価の向上をもたらすか？
RQ2ニューラル再順序付けが最も効果的に是正する翻訳誤りの種別は何か——文法的誤りか語彙的誤りか？
RQ3n-bestリストサイズは、自動評価および人的評価の観点から、ニューラル再順序付けの性能にどのように影響を与えるか？
RQ4再順序付け出力において、ニューラルモデルは語彙的正確性と比較して、文法的正しさをどの程度向上させるか？
RQ5ニューラル再順序付けによる向上は、実用的なn-bestリストサイズで飽和するか、それともさらなる向上の余地があるか？

主な発見

ニューラル再順序付けにより、BLEUおよびRIBESスコアが顕著に向上し、4つの言語対すべてで改善が確認された。自動指標の向上が人的評価品質に対応していることが裏付けられた。
人的評価により、ニューラル再順序付けが主観的品質を向上させたことが確認された。主な向上要因は語彙選択ではなく、文法的正しさの向上に起因した。
最も頻度の高かった是正誤りタイプは、語順の誤り（例：誤った語順）、助動詞の挿入・削除、並列構造の誤解析、動詞の一致誤りであった。
ニューラルモデルは、SMTパーサーが誤って解析した構造（例：並列名詞句、主語-動詞一致）を正しく保持することで、文法的正しさを向上させた。
語彙選択は再順序付けによって大きく劣化し、劣化が2件に対して4件の改善を上回った。モデルはより一般的な語彙（例：'radiation heat' ではなく 'radiant heat'）を好む傾向にあった。
n-bestリストサイズの増加に伴う性能向上は、おおよそ対数線形的であり、1000仮説の時点で飽和しなかった。これにより、より大きなリストや直接的なニューラルデコードによるさらなる向上の余地があることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。