QUICK REVIEW

[論文レビュー] The Impact of Preprocessing on Arabic-English Statistical and Neural Machine Translation

Mai Oudah, Amjad Almahairi|arXiv (Cornell University)|Jun 27, 2019

Natural Language Processing Techniques参考文献 24被引用数 28

ひとこと要約

本稿は、特にトークナイゼーションに注目して、アラビア語-英語統計的機械翻訳（SMT）およびニューラル機械翻訳（NMT）における前処理の影響を調査する。形態論的（例：Penn Arabic Treebank）および頻度ベース（BPE）のトークナイゼーションを比較し、BPEが小規模な語彙サイズでもSMTの性能を向上させることを発見した。また、NMTはデータ量に非常に敏感であることも示した。主な貢献は、SMTとNMTの出力を組み合わせることで翻訳品質を著しく向上させる長さベースのシステム選択手法であり、ドメイン内データにおいて先行研究を+4 BLEUポイント上回った。

ABSTRACT

Neural networks have become the state-of-the-art approach for machine translation (MT) in many languages. While linguistically-motivated tokenization techniques were shown to have significant effects on the performance of statistical MT, it remains unclear if those techniques are well suited for neural MT. In this paper, we systematically compare neural and statistical MT models for Arabic-English translation on data preprecossed by various prominent tokenization schemes. Furthermore, we consider a range of data and vocabulary sizes and compare their effect on both approaches. Our empirical results show that the best choice of tokenization scheme is largely based on the type of model and the size of data. We also show that we can gain significant improvements using a system selection that combines the output from neural and statistical MT.

研究の動機と目的

異なる前処理技術、特にトークナイゼーション方式がアラビア語-英語機械翻訳のSMTおよびNMTパフォーマンスに与える影響を評価すること。
学習曲線分析を通じて、データサイズとトークナイゼーション選択の相互作用を調査すること。
翻訳品質の向上に寄与する形態論的（例：ATB）および頻度ベース（BPE）のトークナイゼーションの有効性を評価すること。
特に長文や複雑な文に対して堅牢性を高めるために、SMTとNMTの出力を組み合わせるシステム選択戦略を検討すること。
ドメイン内アラビア語-英語翻訳ベンチマークにおいて、以前の最先端結果を著しく上回ること。

提案手法

本研究では、生トークナイゼーション、Penn Arabic Treebank（ATB）トークナイゼーション、接尾辞統合（D3）、バイトペアエンコーディング（BPE）の複数の前処理スキームを比較した。
学習曲線実験を実施し、段階的な学習データサイズを用い、入力長がトークナイゼーションタイプにかかわらず一貫するようにD3スキームに基づく文フィルタリングを実施した。
NMTでは、アラビア語および英語の事前学習済み多言語単語埋め込みを用い、英語のみの埋め込みよりも2 BLEUポイントのパフォーマンス向上を達成した。
システム選択は、入力文の長さに基づき、ソース入力に近い長さの出力をSMTまたはNMTから選択する方式で実装した。
オラクルシステム選択を上限として用い、各テスト例に対してSMTまたはNMTのうちBLEUスコアが最も高い出力を選択した。
汎化性と耐性を評価するために、ドメイン内（MT05）およびドメイン外（MT12）のテストセットを用いて実験を実施した。

実験結果

リサーチクエスチョン

RQ1形態論的（例：ATB）および頻度ベース（BPE）のトークナイゼーション方式が、アラビア語-英語翻訳におけるSMTおよびNMTパフォーマンスに与える影響は何か？
RQ2SMTおよびNMTにおいて、学習データサイズとトークナイゼーション方式の選択の相互作用はどのように現れるか？
RQ3入力出力長の整合性に基づくシステム選択が、SMTおよびNMTの翻訳品質をどの程度向上させるか？
RQ4長さベースの選択によるSMTとNMTの出力統合は、ドメイン内およびドメイン外のテストセットにおいて個々のシステムを上回る性能を達成できるか？
RQ5事前学習済み多言語単語埋め込みは、アラビア語-英語翻訳におけるNMTパフォーマンスにどのように影響するか？

主な発見

BPEはSMTパフォーマンスを顕著に向上させ、語彙サイズが20Kという小規模でも強力な結果を達成し、SMTにおいて他の手法を上回った。
NMTパフォーマンスは学習データサイズに極めて敏感であり、長文では顕著に低下した。
最良のNMTモデル（ATBトークナイゼーションを使用）は、ドメイン外テストデータ（MT12）において、最良のSMTモデル（ATB+BPE）を1.5 BLEUポイント上回った。
長さベースのシステム選択はSMTおよびNMTの両方の結果を向上させ、ドメイン外データにおいて顕著な向上を示し、ハイブリッドMTシステムの価値を実証した。
アラビア語および英語の両方の事前学習済み単語埋め込みを用いることで、英語のみの埋め込みを使用した場合に比べ、NMTパフォーマンスが2 BLEUポイント向上した。
提案手法は、ドメイン内MT05テストセットにおいて、先行研究を+4 BLEUポイント上回る結果を達成し、著しく以前の結果を上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。