Skip to main content
QUICK REVIEW

[論文レビュー] Transfer learning and subword sampling for asymmetric-resource one-to-many neural translation

Stig-Arne Grönroos, Sámi Virpioja|arXiv (Cornell University)|Apr 8, 2020
Natural Language Processing Techniques参考文献 100被引用数 6
ひとこと要約

本稿では、非対称リソース設定下における低リソース一対多ニューラル機械翻訳を改善するため、サブワードサンプリングおよびノイズ除去オートエンコーダーを組み合わせたスケジューリングされたマルチタスク学習フレームワークを提案する。高リソース対象言語を用いたクロスリンガル転送、バックトランスレーションおよびオートエンコーダーによる単語彙データの活用、Morfessor EM+Pruneを用いたサブワード分割の最適化により、エストニア語、スロバキア語/チェコ語、デンマーク語/スウェーデン語、ノルウェー語/ノール・サアミ語の各タスクにおいて、一貫した改善が得られ、最大で+12.7 BLEUの向上を達成した。スケジューリングされた学習とサブワード正則化が、最も安定した改善をもたらした。

ABSTRACT

There are several approaches for improving neural machine translation for low-resource languages: Monolingual data can be exploited via pretraining or data augmentation; Parallel corpora on related language pairs can be used via parameter sharing or transfer learning in multilingual models; Subword segmentation and regularization techniques can be applied to ensure high coverage of the vocabulary. We review these approaches in the context of an asymmetric-resource one-to-many translation task, in which the pair of target languages are related, with one being a very low-resource and the other a higher-resource language. We test various methods on three artificially restricted translation tasks -- English to Estonian (low-resource) and Finnish (high-resource), English to Slovak and Czech, English to Danish and Swedish -- and one real-world task, Norwegian to North S\'ami and Finnish. The experiments show positive effects especially for scheduled multi-task learning, denoising autoencoder, and subword sampling.

研究の動機と目的

  • 一つの対象言語が他よりも著しく少ない並列データを有する非対称リソース設定下における低リソースニューラル機械翻訳の課題に対処すること。
  • 関連する高リソース言語を補助的対象として用いることで、語彙的に豊富な低リソース言語の翻訳品質を向上させる有効な転移学習戦略を調査すること。
  • データスパarsityの低減と低リソース状況下での一般化の向上を目的として、サブワード分割と語彙構築を最適化すること。
  • バックトランスレーションおよびノイズ除去オートエンコーダーによる単語彙データの増強が、低リソース翻訳性能に与える影響を評価すること。
  • 低リソース多言語NMTにおける、異なる学習スケジュール、ノイズモデル、語彙構築技術の相対的な有効性を特定すること。

提案手法

  • スケジューリングされたマルチタスク学習を提案:過学習を回避するため、高リソース言語タスクでの事前学習の後、高リソースおよび低リソースタスクの両方で微調整を行う。
  • サブワード分割の曖昧性をモデル化するため、訓練中に特定のサブワードユニットを除外する「タコブサンプリングタスク」を導入。
  • 複数のノイズタイプ(サブワード正則化、再配置、削除、置換)を用いたノイズ除去オートエンコーダーを採用し、耐性を向上させる。
  • BPE や SentencePiece よりも事前分布に基づく分割を優遇するため、データ駆動型サブワード語彙学習に Morfessor EM+Prune を使用。
  • 対象言語から元言語へのモデルを用いて、単語彙コーパスから合成並列データを生成するバックトランスレーションを適用。
  • 訓練中にノイズ付きミニバッチのサンプリングとタスクミキシングのスケジューリングが可能なマルチタスクデータローダーを実装。

実験結果

リサーチクエスチョン

  • RQ1非対称リソース一対多翻訳において、スケジューリングされたマルチタスク学習は、逐次的または完全並列的転送に比べて優れているか?
  • RQ2低リソース対象言語用のノイズ除去オートエンコーダーは翻訳品質を向上させるか、特にバックトランスレーションと組み合わせた場合に顕著な効果を示すか?
  • RQ3サブワード正則化はどの程度有効か?また、削除や再配置などのノイズモデルの中で、低リソースNMTに最も有益なものは何か?
  • RQ4サブワード分割手法(例:Morfessor 対 SentencePiece)および語彙サイズの選択が翻訳品質に顕著な影響を与えるか?
  • RQ5言語の類縁性およびデータ量(特に低リソース言語のデータ量)は、クロスリンガル転送の有効性にどのように影響するか?

主な発見

  • スケジューリングされたマルチタスク学習は、+2.4 BLEUの最高個別向上を達成し、逐次的および完全並列的学習戦略を上回った。
  • 多言語学習によるクロスリンガル転送は、+12.7 BLEUの最大向上を達成し、高リソース対象言語を活用することで顕著な利点があることを示した。
  • バックトランスレーションは最大で+4.46 BLEUの向上をもたらし、低リソース状況下でのデータ増強技術としての価値を裏付けた。
  • Morfessor EM+Pruneによるサブワード分割法は、SentencePieceを+0.6 BLEU上回り、事前分布に基づく分割アプローチの利点を示した。
  • サブワード正則化およびマルチノイズノイズ除去オートエンコーダーは、希少語に対して特に耐性を高め、効果は言語ペアによって異なるが、全体としての耐性向上に寄与した。
  • わずか1万文の並列データでも、低リソースデータは顕著な向上をもたらし、その閾値を超えると効果の逓減が見られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。