Skip to main content
QUICK REVIEW

[論文レビュー] A Neural Approach to Language Variety Translation

Marta R. Costa‐jussà, Marcos Zampieri|arXiv (Cornell University)|Jul 2, 2018
Natural Language Processing Techniques被引用数 6
ひとこと要約

本論文は、ブラジルポルトガル語とヨーロッパポルトガル語を事例として、同一言語の国家的方言間を翻訳するための最初のニューラル機械翻訳(NMT)システムを提示する。映画の字幕対訳データを用いて学習されたNMTモデルは、ヨーロッパ→ブラジル方向でSMTシステムより0.9 BLEUポイント、逆方向で0.2 BLEUポイントの性能向上を達成し、人的評価でもNMTシステムの翻訳が優れていると確認された。

ABSTRACT

In this paper we present the first neural-based machine translation system trained to translate between standard national varieties of the same language. We take the pair Brazilian - European Portuguese as an example and compare the performance of this method to a phrase-based statistical machine translation system. We report a performance improvement of 0.9 BLEU points in translating from European to Brazilian Portuguese and 0.2 BLEU points when translating in the opposite direction. We also carried out a human evaluation experiment with native speakers of Brazilian Portuguese which indicates that humans prefer the output produced by the neural-based system in comparison to the statistical system.

研究の動機と目的

  • 同じ言語の国家的方言間でのニューラル機械翻訳(NMT)の実現可能性と性能を調査すること。
  • ブラジルポルトガル語とヨーロッパポルトガル語のペアを対象に、NMTの性能をフレーズベースの統計的機械翻訳(SMT)と比較すること。
  • 母語話者による人的評価を通じて、NMT出力の品質を自動指標(BLEU)と併せて評価すること。
  • 翻訳の際の言語的課題、例えば代名詞の付着形、動詞形の違い、綴りの違いを検討すること。
  • 多中心言語翻訳における将来的なNMT研究の基盤を築くこと。

提案手法

  • 映画の字幕対訳コーパスを用いて、エンコーダ・デコーダアーキテクチャにアテンション機構を組み込んだ系列対系列NMTモデルを学習した。
  • ヨーロッパポルトガル語とブラジルポルトガル語の字幕対訳データを用いて、NMTモデルを微調整し、異方言間翻訳パターンを学習した。
  • 同じ対訳データを用いて学習されたMosesツールキットを用いたフレーズベースSMTシステムと、NMTシステムを比較した。
  • 両方向(EP→BPおよびBP→EP)における自動翻訳品質の評価のため、BLEUスコアを適用した。
  • 7名の母語話者による人的評価を実施し、NMTとSMTの出力の品質および好みを評価した。
  • 代名詞の付着形(プロクリティック/エンクロティック)の配置、動詞の時制(動名詞対不定形)の使用、綴りの違いといった言語現象を分析し、システムの挙動を評価した。

実験結果

リサーチクエスチョン

  • RQ1ニューラル機械翻訳システムは、ブラジルポルトガル語とヨーロッパポルトガル語といった同一言語の国家的方言間を効果的に翻訳できるか?
  • RQ2NMTの性能は、BLEUスコアおよび人的評価による品質の観点から、フレーズベースSMTと比べてどの程度優れているか?
  • RQ3NMTシステムは、言語様式間の動詞形の変化や、プロクリティック/エンクロティック代名詞といった複雑な文法現象をどの程度適切に処理できるか?
  • RQ4自動指標(BLEU)の向上が、人的認識および翻訳品質の好みに反映されているか?
  • RQ5ドメイン固有の特徴(例:映画の字幕)は、NMTおよびSMTシステムの翻訳性能とばらつきにどのように影響を与えるか?

主な発見

  • ヨーロッパポルトガル語からブラジルポルトガル語への翻訳において、NMTシステムはSMTシステムを0.9 BLEUポイント上回った。
  • ブラジルポルトガル語からヨーロッパポルトガル語への翻訳において、NMTシステムはSMTシステムを0.2 BLEUポイント上回った。
  • 人的評価では、7名中7名がNMTシステムの出力をSMTシステムの出力よりも好んだため、顕著な質的優位性が示された。
  • NMTモデルは、プロクリティック・エンクロティック代名詞の配置といった複雑な構文的現象をより適切に処理でき、'Ele viu-me'(EP)を'Ele me viu'(BP)として正しく翻訳した。
  • 動詞形の翻訳においても、ヨーロッパの不定形'correr'をブラジルの動名詞'correndo'に正確に変換できた。
  • 字幕のドメイン的ばらつきによりBLEUスコアが低く抑えられたものの、NMTシステムは特に創造的・口語的文脈においてより自然で文脈的に適切な翻訳を生成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。