QUICK REVIEW

[论文解读] Multilingual Universal Sentence Encoder for Semantic Retrieval

Yinfei Yang, Daniel Cer|arXiv (Cornell University)|Jul 9, 2019

Topic Modeling参考文献 13被引用 67

一句话总结

该论文提出两种多语言句子编码模型（Transformer 和 CNN），通过多任务双编码器将 16 种语言映射到一个共享语义空间，在语义检索、平行语料检索和基于检索的问答方面取得有竞争力的结果，并在 TensorFlow Hub 发布。

ABSTRACT

We introduce two pre-trained retrieval focused multilingual sentence encoding models, respectively based on the Transformer and CNN model architectures. The models embed text from 16 languages into a single semantic space using a multi-task trained dual-encoder that learns tied representations using translation based bridge tasks (Chidambaram al., 2018). The models provide performance that is competitive with the state-of-the-art on: semantic retrieval (SR), translation pair bitext retrieval (BR) and retrieval question answering (ReQA). On English transfer learning tasks, our sentence-level embeddings approach, and in some cases exceed, the performance of monolingual, English only, sentence embedding models. Our models are made available for download on TensorFlow Hub.

研究动机与目标

通过将 16 种语言嵌入到一个统一的语义空间来实现多语言语义相似性。
使用带桥接任务的多任务双编码器框架开发面向检索的编码器。
提供高效、可迁移的句子嵌入，适用于跨语言的 SR、BR 和 ReQA 任务。
对英语任务的迁移性能以及跨语言检索情景的表现如何。

提出的方法

两种多语言编码器（Transformer 和 CNN）将句子映射到一个共享空间。
具有问答预测、翻译排序和自然语言推理任务的多任务双编码器训练。
使用 SentencePiece 子词标记，在 16 种语言之间共享 128k 词汇表。
来自 QA 对、翻译对、SNLI、MultiNLI，以及平衡语言的数据的翻译数据等训练数据。
CNN 与 Transformer 编码器，具有特定超参数；QA 变体 USE QA Trans+Cxt 用于上下文感知检索。

实验结果

研究问题

RQ1多语言双编码器在检索任务中将 16 种语言嵌入到统一语义空间的效果如何？
RQ2在多语言设置下，Transformer 与 CNN 架构在语义检索、双语文本检索和 ReQA 上的性能如何？
RQ3跨语言检索方法能否在各语言对上接近单语言的表现？
RQ4迁移学习到英语任务的表现与单语言英语模型相比如何？
RQ5在多语言设置下，CNN 与 Transformer 编码器的资源权衡（速度、内存）如何？

主要发现

多语言 Transformer 与 CNN 编码器在 SR、BR 和 ReQA 任务上相比于最先进基线取得了有竞争力的表现。
这些模型支持跨语言语义检索和跨语言 ReQA，对于许多语言的结果接近单语言表现。
SentencePiece 实现了对这 16 种语言的广泛覆盖及高字符覆盖率；英语迁移任务表现与单语言模型具有竞争力。
Transformer 在大多数任务中往往优于 CNN，尽管 CNN 提供更低的内存占用和更快的推理，尤其是对较长文本。
这些模型通过 TensorFlow Hub 公开提供，附带文档和 Colab 笔记本。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。