Skip to main content
QUICK REVIEW

[論文レビュー] Transfer Learning across Low-Resource, Related Languages for Neural Machine Translation

Toan Nguyen, David Chiang|arXiv (Cornell University)|Aug 31, 2017
Natural Language Processing Techniques参考文献 8被引用数 112
ひとこと要約

本論文は Zoph らの転移学習を、ソース語彙を Byte Pair Encoding (BPE) と音訳を通じて共有することで、関連するリソースの少ないトゥルコ系言語を活用し、特に BPE を用いた場合に NMT の性能を改善する。

ABSTRACT

We present a simple method to improve neural translation of a low-resource language pair using parallel data from a related, also low-resource, language pair. The method is based on the transfer method of Zoph et al., but whereas their method ignores any source vocabulary overlap, ours exploits it. First, we split words using Byte Pair Encoding (BPE) to increase vocabulary overlap. Then, we train a model on the first language pair and transfer its parameters, including its source word embeddings, to another model and continue training on the second language pair. Our experiments show that transfer learning helps word-based translation only slightly, but when used on top of a much stronger BPE baseline, it yields larger improvements of up to 4.3 BLEU.

研究の動機と目的

  • 関連言語を用いて、非常にリソースが乏しい言語ペアの NMT を改善する動機を示す。
  • 関連する低リソース親言語からの転移が、低リソースの子言語を支援するかを探る。
  • 転移学習の効果における語彙の重複とサブワード分割の影響を調べる。
  • 転移学習と BPE の組み合わせが、いずれか単独のアプローチよりも大きな改善をもたらすかを評価する。

提案手法

  • Luong型アテンションを用いた2層のアテンショナルNMTモデルを使用する。
  • Zoph らの転移に従う: 学習済みの親モデルから子モデルを初期化し、子データでファインチューニングする。ソース embeddings を転移し、ターゲット embeddings は固定する。
  • 共通の表記体系へ音写して語彙の言語間重複を増やす(ウイグル語をラテン文字に音写)し、親と子の語彙の合集合に BPE を適用する。
  • 両言語のソースとターゲットデータの結合集合から BPE マージ規則を学習し、両モデルの単一共有語彙を作る。
  • 語彙ベースのベースラインと BPE ベースのシステムを訓練し、語彙サイズと BPE の操作回数(5k–60k)を探る。
  • デベロップメント/テストでトークン化された BLEU で評価し、デコード時に長さ正規化を適用する。

実験結果

リサーチクエスチョン

  • RQ1関連のある低リソース親言語からの転移学習は、低リソース子言語の翻訳品質を向上させるか?
  • RQ2親と子の間で BPE ベースのサブワード語彙を共有することは、単純な転移や転移なしと比べて転送効果を改善するか?
  • RQ3共通の文字系への音写は、語彙の重複と転送効果にどう影響するか?
  • RQ4強力な BPE ベースラインと組み合わせた転移学習は、効果が加算的か?

主な発見

設定言語ペア表現BLEUサイズ備考
baselineTurkish-Englishword-based8.130k
transferTurkish-Englishword-based8.530k
transfer+freezeTurkish-Englishword-based8.630k
baselineTurkish-EnglishBPE12.410k
transferTurkish-EnglishBPE13.220ksignificant (p<0.05)
baselineUyghur-Englishword-based8.515k
transferUyghur-Englishword-based10.615ksignificant (p<0.05)
transfer+freezeUyghur-Englishword-based8.815kinsignificant (p>0.05)
baselineUyghur-EnglishBPE11.110k
transferUyghur-EnglishBPE15.48ksignificant (p<0.01)
  • 語彙ベースの転移は、低リソース環境で限定的で不安定な利益をもたらす。
  • BPE ベースのシステムは語彙ベースのシステムを上回り、強力な BPE ベースラインの上に転移を適用するとより大きな改善を生む。
  • Uzbek を Turkish および Uyghur への親言語として用いると、BPE ベースラインに対して Turkish-Englishで最大 0.8 BLEU、Uyghur-English で最大 4.3 BLEU の改善をもたらす。
  • 転移は共有語彙(BPE 経由)を用いた場合、ベースラインおよび非共有転移設定の双方に対して一貫した改善をもたらす。
  • BPE と転移の組み合わせは、いずれかの単独アプローチよりも効果的であり、サブワード単位からの語彙重複の増加が原因と考えられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。