[论文解读] Language-agnostic BERT Sentence Embedding
LaBSE引入了一种基于预训练语言模型和双编码器的多语言句子嵌入模型,在109+种语言中实现跨语言检索的最新水平,在双语文本挖掘方面表现强劲,迁移结果具有竞争力。
While BERT is an effective method for learning monolingual sentence embeddings for semantic similarity and embedding based transfer learning (Reimers and Gurevych, 2019), BERT based cross-lingual sentence embeddings have yet to be explored. We systematically investigate methods for learning multilingual sentence embeddings by combining the best methods for learning monolingual and cross-lingual representations including: masked language modeling (MLM), translation language modeling (TLM) (Conneau and Lample, 2019), dual encoder translation ranking (Guo et al., 2018), and additive margin softmax (Yang et al., 2019a). We show that introducing a pre-trained multilingual language model dramatically reduces the amount of parallel training data required to achieve good performance by 80%. Composing the best of these methods produces a model that achieves 83.7% bi-text retrieval accuracy over 112 languages on Tatoeba, well above the 65.5% achieved by Artetxe and Schwenk (2019b), while still performing competitively on monolingual transfer learning benchmarks (Conneau and Kiela, 2018). Parallel data mined from CommonCrawl using our best model is shown to train competitive NMT models for en-zh and en-de. We publicly release our best multilingual sentence embedding model for 109+ languages at https://tfhub.dev/google/LaBSE.
研究动机与目标
- 为聚类、检索和下游迁移任务动机化多语言句子嵌入。
- 研究将预训练语言模型与双编码器训练耦合用于跨语言翻译排序。
- 评估预训练、负采样、词汇选择、数据质量和数据量对多语言嵌入的影响。
- 证明可扩展到 109+ 种语言并公开发布模型以便广泛使用。
提出的方法
- 使用共享的基于 BERT 的编码器的双编码器架构,将句子映射到一个通用嵌入空间。
- 在单语和双语数据上进行 Masked Language Modeling (MLM) 与 Translation Language Modeling (TLM) 的预训练。
- 使用翻译排序损失进行微调,包括加性边距 Softmax,以促进嵌入空间中翻译的一致对齐。
- 采用同批次内和跨加速器的负采样以在大批量训练中实现扩展。
- 尝试公开的 mBERT 词汇表和自定义词汇表以研究对性能的影响。
- 使用 LaBSE 嵌入从 CommonCrawl 中挖掘平行数据,用于 NMT 训练,示范下游数据的有效性。
实验结果
研究问题
- RQ1在 MLM/TLM 上进行预训练的大型多语言编码器是否能够在不进行语言特定微调的情况下,在多种语言上产生高质量的句子嵌入?
- RQ2加性边距 Softmax 和预训练对跨语言检索与挖掘任务的影响是什么?
- RQ3在跨语言集合中,与先前的最先进模型相比,LaBSE 在双文本检索和平行文本挖掘上的表现如何?
- RQ4一个模型在覆盖 109+ 种语言的同时还能在下游迁移性能方面保持竞争力到何种程度?
- RQ5词汇选择和数据量对跨语言嵌入质量的影响是什么?
主要发现
- LaBSE 在多任务和多语言的双文本检索与平行文本挖掘方面达到最先进水平。
- 加性边距 Softmax 在各种配置下显著提升跨语言嵌入性能。
- 预训练显著减少所需的平行数据(高达 80% 的减少),同时提升性能。
- LaBSE 在低资源语言和没有明确训练数据的语言上取得了强劲结果,在多种设定中超越了如 LASER 与 m-USE 等先前的多语言模型。
- 在下游迁移(SentEval)中,尽管覆盖语言广泛,LaBSE 仍与以英语为中心和多语言基线具有竞争力。
- 该模型已公开发布支持 109+ 种语言,实验表明可用于用于 NMT 的平行数据挖掘(如 en-zh、en-de)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。