[論文レビュー] Towards Making the Most of BERT in Neural Machine Translation
本稿では、漸近的 distillation、動的スイッチングゲート、レートスケジューリング学習を組み合わせることで、災難的忘却を軽減する、BERTをニューラル機械翻訳(NMT)に統合する一貫的訓練フレームワークCTnmtを提案する。この手法は最先端の性能を達成し、WMT14英独翻訳ベンチマークでBLEUスコアを最大3.0向上させ、同じベンチマークで前回のSOTAを1.4 BLEU上回った。
GPT-2 and BERT demonstrate the effectiveness of using pre-trained language models (LMs) on various natural language processing tasks. However, LM fine-tuning often suffers from catastrophic forgetting when applied to resource-rich tasks. In this work, we introduce a concerted training framework (CTNMT) that is the key to integrate the pre-trained LMs to neural machine translation (NMT). Our proposed CTNMT consists of three techniques: a) asymptotic distillation to ensure that the NMT model can retain the previous pre-trained knowledge; b) a dynamic switching gate to avoid catastrophic forgetting of pre-trained knowledge; and c) a strategy to adjust the learning paces according to a scheduled policy. Our experiments in machine translation show CTNMT gains of up to 3 BLEU score on the WMT14 English-German language pair which even surpasses the previous state-of-the-art pre-training aided NMT by 1.4 BLEU score. While for the large WMT14 English-French task with 40 millions of sentence-pairs, our base model still significantly improves upon the state-of-the-art Transformer big model by more than 1 BLEU score. The code and model can be downloaded from https://github.com/bytedance/neurst/ tree/master/examples/ctnmt.
研究の動機と目的
- リソース豊富なニューラル機械翻訳(NMT)環境でBERTをファインチューニングする際、災難的忘却が生じる問題に対処すること。
- WMT14のような大規模ベンチマークで効果を発揮しない、直接的なBERTのNMTへの統合の限界を克服すること。
- 事前学習された言語モデルの知識とNMTのシーケンス・ツー・シーケンス学習を効果的に統合する統一フレームワークを開発すること。
- 共同学習を通じて、BERTの普遍的知識を保持しつつ、翻訳固有のタスクに適応する形でNMTの性能を向上させること。
- WMT14英仏語および英中語のような大規模・高リソース翻訳データセットにおいて、提案手法の有効性を示すこと。
提案手法
- 教師の事前学習済みBERT(教師)から学生のNMTエンコーダーへの知識移転を、隠れ表現のL2または交差エントロピー損失を最小化することで、漸近的distillationを適用する。
- 入力依存の注意に基づき、BERTでエンコードされた表現とNMTエンコーダー出力の間を動的に融合する、動的スイッチングゲートを導入する。
- BERTとNMTコンponentsの学習率を別々に制御するレートスケジューリング学習戦略を実装し、過学習を防ぎ、事前学習済み知識の保持を図る。
- 追加パラメータを追加せずに、distillation、動的ゲート、スケジューリング学習の3要素を統合して、エンドツーエンドでNMTモデルを訓練する。
- BERTの最終層を初期エンコーダー表現として使用しつつ、共同学習中にNMTエンコーダーがタスク固有の特徴を学習できるようにする。
- 翻訳品質と知識保持の両方を保証するため、NMT損失とdistillation損失を含むマルチタスク目的関数を最適化する。
実験結果
リサーチクエスチョン
- RQ1リソース豊富なNMT環境において、災難的忘却を回避しながら、事前学習済みBERTを効果的にファインチューニングできるか?
- RQ2BERTの文脈的表現とNMTのシーケンスモデリングの相補的利点を、翻訳タスクでどのように共同最適化できるか?
- RQ3BERTの事前学習済み知識を保持しつつ、NMTに適応させるために、最も効果的な訓練戦略は何か?
- RQ4BERTとNMTエンコーダー特徴の動的統合は、固定または直接的な埋め込み置換よりも優れた性能をもたらすか?
- RQ5BERTとNMTコンponentsに別々の学習率スケジューリングを適用することで、均一なファインチューニングに比べ、収束性と最終的性能が向上するか?
主な発見
- CTnmtは、WMT14英独翻訳ベンチマークで3.0 BLEUのスコア向上を達成し、前回のSOTAを1.4 BLEU上回った。
- 4000万文ペアを含む大規模なWMT14英仏語データセットでは、CTnmtはSOTAのTransformer-bigモデルを1.0 BLEU以上上回った。
- 英中語WMT14ベンチマークでは1.6 BLEUの向上を達成し、多様な言語対において一貫した向上を示した。
- 漸近的distillationは、ファインチューニング中の安定したパフォーマンスから、BERTの事前学習済み知識を効果的に保持していることが裏付けられた。
- 動的スイッチングゲートは、BERTやNMT単体で性能が劣る文書においても、より優れた表現統合を可能にした。
- レートスケジューリング学習戦略は、BERTとNMTコンponentsの更新速度を分離することで、モデルの収束性と最終的性能を顕著に向上させた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。