[論文レビュー] Language-agnostic BERT Sentence Embedding
LaBSE は、事前学習済み言語モデルとデュアルエンコーダーに基づく多言語文埋め込みモデルを導入し、109言語以上にわたる最先端のクロス言語検索を実現するとともに、双方向テキストマイニングで高い性能を示し、転移性能も競争力を持つ。
While BERT is an effective method for learning monolingual sentence embeddings for semantic similarity and embedding based transfer learning (Reimers and Gurevych, 2019), BERT based cross-lingual sentence embeddings have yet to be explored. We systematically investigate methods for learning multilingual sentence embeddings by combining the best methods for learning monolingual and cross-lingual representations including: masked language modeling (MLM), translation language modeling (TLM) (Conneau and Lample, 2019), dual encoder translation ranking (Guo et al., 2018), and additive margin softmax (Yang et al., 2019a). We show that introducing a pre-trained multilingual language model dramatically reduces the amount of parallel training data required to achieve good performance by 80%. Composing the best of these methods produces a model that achieves 83.7% bi-text retrieval accuracy over 112 languages on Tatoeba, well above the 65.5% achieved by Artetxe and Schwenk (2019b), while still performing competitively on monolingual transfer learning benchmarks (Conneau and Kiela, 2018). Parallel data mined from CommonCrawl using our best model is shown to train competitive NMT models for en-zh and en-de. We publicly release our best multilingual sentence embedding model for 109+ languages at https://tfhub.dev/google/LaBSE.
研究の動機と目的
- クラスタリング、検索、および下流の転移タスクのための多言語文埋め込みの動機づけ。
- クロス言語翻訳ランキングのための事前学習済み言語モデルとデュアルエンコーダー訓練の結合を調査。
- 多言語埋め込みに対する事前学習、負例サンプリング、語彙選択、データ品質、およびデータ量の影響を評価。
- 109言語以上へのスケーラビリティとモデルの公的リリースを実証し、広範な利用を可能にする。
提案手法
- 共有BERTベースのエンコーダを用いたデュアルエンコーダー構造で、文を共通の埋め込み空間へ写像。
- モノリンガルおよびバイリンガルデータ上で Masked Language Modeling (MLM) と Translation Language Modeling (TLM) を事前学習。
- 翻訳を埋め込み空間で整列させるよう、加法的マージンソフトマックスを含む翻訳ランキング損失でファインチューニング。
- バッチ内およびクロスアクセラレータ負例サンプリングを活用し、大規模バッチで訓練をスケール。
- 公開 mBERT 語彙とカスタマイズ語彙を用いて性能への影響を研究。
- LaBSE 埋め込みを用いて CommonCrawl から並列データを抽出し、NMT 訓練のデモンストレーションとして下流データの有用性を示す。
実験結果
リサーチクエスチョン
- RQ1MLM/TLM で事前学習した大規模多言語エンコーダは、言語特有の調整なしで多言語にわたる高品質な文埋め込みを生成できるか?
- RQ2加法的マージンソフトマックスと事前学習は、クロスリンガル検索とマイニングタスクへどのような影響を与えるか?
- RQ3LaBSE は bi-text 検索と bitext マイニングで、 prior state-of-the-art モデルと比較して diverse languages set でどう機能するか?
- RQ4単一のモデルで109言語以上をカバーしつつ、競争力のある下流転移性能を提供できるか?
- RQ5語彙選択とデータ量がクロスリンガル埋め込み品質に与える影響は?
主な発見
- LaBSE は複数のタスクと言語において、 bi-text 検索と並列テキストマイニングで最先端の性能を達成。
- 加法的マージンソフトマックスは、構成を超えてクロスリンガル埋め込み性能を大幅に向上させる。
- 事前学習は必要な並列データを劇的に削減(80%削減まで)しつつ性能を向上させる。
- 低リソース言語や明示的な学習データのない言語でも強い結果を示し、LASER や m-USE のような以前の多言語モデルをいくつかの設定で上回る。
- 下流転移(SentEval)では、英語中心および多言語のベースラインと競合的であり、広範な言語カバーにもかかわらず優位性を維持。
- 109言語以上の公開リリースが行われ、NMT(en-zh, en-de)の並列データマイニングにも実用性が示される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。