Skip to main content
QUICK REVIEW

[論文レビュー] Multilingual Universal Sentence Encoder for Semantic Retrieval

Yinfei Yang, Daniel Cer|arXiv (Cornell University)|Jul 9, 2019
Topic Modeling参考文献 13被引用数 67
ひとこと要約

本論文は、16言語を共有意味空間に写像する多言語文表現モデル(Transformer と CNN)を2つ提案し、マルチタスク双エンコーダ機構を用いて、意味検索、対訳検索、検索ベースのQAで競争力のある結果を達成し、TensorFlow Hubで公開されている。

ABSTRACT

We introduce two pre-trained retrieval focused multilingual sentence encoding models, respectively based on the Transformer and CNN model architectures. The models embed text from 16 languages into a single semantic space using a multi-task trained dual-encoder that learns tied representations using translation based bridge tasks (Chidambaram al., 2018). The models provide performance that is competitive with the state-of-the-art on: semantic retrieval (SR), translation pair bitext retrieval (BR) and retrieval question answering (ReQA). On English transfer learning tasks, our sentence-level embeddings approach, and in some cases exceed, the performance of monolingual, English only, sentence embedding models. Our models are made available for download on TensorFlow Hub.

研究の動機と目的

  • 16言語を単一の意味空間に埋め込んで、多言語的な意味的類似性を実現する。
  • ブリッジタスクを含むマルチタスク双エンコーダフレームワークを用いて、検索に焦点を当てたエンコーダを開発する。
  • SR、BR、ReQAタスクに適した、言語間で効率的かつ移植可能な文埋め込みを提供する。
  • 英語タスクへの転移性能とクロスリンガル検索シナリオを評価する。

提案手法

  • 2つの多言語エンコーダ(TransformerとCNN)が文を共有空間に写像する。
  • 質問応答予測、翻訳ランキング、自然言語推論タスクを組み込んだマルチタスク双エンコーダ訓練。
  • 16言語にわたる共有128k語彙のSentencePieceサブワードトークナイゼーション。
  • QA対ペア、翻訳対ペア、SNLI、MultiNLI、および言語バランスを取るための翻訳データを訓練データとした。
  • 特定のハイパーパラメータを持つCNNとTransformerエンコーダ。QAバリアント USE QA Trans+Cxt は文脈対応検索用。

実験結果

リサーチクエスチョン

  • RQ1多言語デュアルエンコーダは、16言語を検索タスクの統一意味空間にどれだけうまく埋め込めるか。
  • RQ2多言語設定での意味検索、対訳検索、ReQAにおけるTransformerとCNNアーキテクチャの性能はどうか。
  • RQ3クロスリンガル検索アプローチは言語ペア間でモノリンガル性能に近づけるか。
  • RQ4英語タスクへの転移学習はモノリンガル英語モデルとどう比較されるか。
  • RQ5多言語設定におけるCNNとTransformerエンコーダ間のリソーストレードオフ(速度、メモリ)はどうか。

主な発見

  • 多言語TransformerとCNNエンコーダは、SR、BR、ReQAタスクで最先端のベースラインと比較して競争力の性能を達成する。
  • これらのモデルはクロスリンガル意味検索とクロスリンガルReQAをサポートし、多くの言語でモノリンガル性能に近い結果を示す。
  • SentencePieceは16言語を横断した高い文字カバレッジで広い言語カバレッジを可能にし、英語転移タスクはモノリンガルモデルと競争力のある結果を示す。
  • Transformerは多くのタスクでCNNを上回る傾向だが、CNNはメモリ消費を抑え推論が速く、特に長いテキストで有利。
  • これらのモデルはTensorFlow Hubを通じてドキュメントとColabノートブックと共に公開されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。