QUICK REVIEW

[論文レビュー] From English To Foreign Languages: Transferring Pre-trained Language Models

Ke Tran|arXiv (Cornell University)|Feb 18, 2020

Topic Modeling参考文献 28被引用数 23

ひとこと要約

この論文では、1枚のGPUで2日未満で、事前学習済みの英語BERTモデルを他の言語に迅速に転送するRAMENという手法を提案している。外国語の単語埋め込みをアラインドされたfastTextベクトルで初期化し、その後1枚のGPUで微調整することで、6言語における自然言語推論と依存解析のゼロショット性能がマルチリンガルBERT（mBERT）と同等以上となる。

ABSTRACT

Pre-trained models have demonstrated their effectiveness in many downstream natural language processing (NLP) tasks. The availability of multilingual pre-trained models enables zero-shot transfer of NLP tasks from high resource languages to low resource ones. However, recent research in improving pre-trained models focuses heavily on English. While it is possible to train the latest neural architectures for other languages from scratch, it is undesirable due to the required amount of compute. In this work, we tackle the problem of transferring an existing pre-trained model from English to other languages under a limited computational budget. With a single GPU, our approach can obtain a foreign BERT base model within a day and a foreign BERT large within two days. Furthermore, evaluating our models on six languages, we demonstrate that our models are better than multilingual BERT on two zero-shot tasks: natural language inference and dependency parsing.

研究の動機と目的

限られた計算リソースの下で、高性能な英語事前学習言語モデルを低リソース言語に転送する課題に対処すること。
学習から再び行わずに、英語BERTを他の言語に高速かつ効率的に適応可能にする手法を提供すること。
転移学習によって構築された二言語モデルが、ゼロショット多言語タスクにおいてマルチリンガルBERTと同等またはそれ以上の性能を示すかどうかを評価すること。
転送されたモデルが、教師あり依存解析における特徴抽出器として有効であるかどうかを調査すること。

提案手法

翻訳ペair間の意味的類似性を保つために、アラインドされたfastTextベクトルを用いて、英語埋め込み空間内でのターゲット言語の単語埋め込みを初期化する。
事前学習済みの英語BERTエンコーダ層を固定し、最初の段階の適応ではターゲット言語の単語埋め込みのみを学習する。
英語とターゲット言語の埋め込みを組み合わせた二言語言語モデルを構築し、両言語の単語文脈データ上ですべてのパラメータを同時に微調整する。
文脈表現を保持し、ゼロショット転送を向上させるために、微調整中にマスク言語モデルの目的関数を用いる。
1枚のGPUを用いて二言語モデルを学習し、ベースバージョンでは20時間、largeバージョンでは46時間で学習を完了する。
効率性と有効性を検証するため、mBERTおよび同じデータで学習したBERTモデル（学習から再び行う）と性能を比較する。

実験結果

リサーチクエスチョン

RQ1最小限の計算コストで、事前学習済みの英語BERTモデルを他の言語に効果的に転送できるか？
RQ2外国語の単語埋め込み初期化の品質が、ゼロショット多言語転送性能に与える影響は何か？
RQ3転送された二言語モデルは、ゼロショット自然言語推論および依存解析において、マルチリンガルBERTを上回る性能を示すか？
RQ4転送されたモデルは、教師あり依存解析において効果的な特徴抽出器として機能するか？

主な発見

RAMENは1枚のTesla V100 GPUを用いて、ベースモデルを20時間、largeモデルを46時間で学習し、学習から再び行う場合と比べて著しく学習時間を短縮した。
6言語において、RAMENは自然言語推論（XNLI）および依存解析の両方でmBERTを上回った。特に、ランダム初期化を用いた場合、XNLIで平均10.3%の向上を達成した。
アラインドされたfastTextベクトルを用いた適切な初期化により、アラビア語やヒンディー語のような屈曲語やSOV語に特に優れたゼロショット性能を発揮し、mBERTを上回った。
わずか20,000回の学習更新（3.5 GPU時間）でも、依存解析において400時間学習したBERTモデルを上回った。これは、高いサンプル効率を示している。
教師あり依存解析では、RAMEN + RoBERTa-largeがLASスコア86.5を達成し、mBERT（84.6）を上回り、特徴抽出器としての強力なポテンシャルを示した。
転送モデルの性能は、元の英語BERTモデルの性能と強く相関しており、高品質な英語事前学習が、効果的な多言語知識転送を可能にしていることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。