QUICK REVIEW

[論文レビュー] mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval

Xin Zhang, Yanzhao Zhang|arXiv (Cornell University)|Jul 29, 2024

Topic Modeling被引用数 14

ひとこと要約

本論文は RoPE とパディング解除を備えたネイティブな 8k 文脈多言語テキストエンコーダ mGTEを提案し、長文脈多言語検索のためのハイブリッド TRM と対照学習で訓練されたクロスエンコーダリランカーを併用する。効率性を改善しつつ、強力な成果を達成する。

ABSTRACT

We present systematic efforts in building long-context multilingual text representation model (TRM) and reranker from scratch for text retrieval. We first introduce a text encoder (base size) enhanced with RoPE and unpadding, pre-trained in a native 8192-token context (longer than 512 of previous multilingual encoders). Then we construct a hybrid TRM and a cross-encoder reranker by contrastive learning. Evaluations show that our text encoder outperforms the same-sized previous state-of-the-art XLM-R. Meanwhile, our TRM and reranker match the performance of large-sized state-of-the-art BGE-M3 models and achieve better results on long-context retrieval benchmarks. Further analysis demonstrate that our proposed models exhibit higher efficiency during both training and inference. We believe their efficiency and effectiveness could benefit various researches and industrial applications.

研究の動機と目的

ゼロからネイティブな8k文脈対応の多言語エンコーダを構築して長文脈多言語テキスト検索を前進させる。
効率的な第1段階検索のために、密表現と疎表現を柔軟にサポートするハイブリッドなテキスト表現モデル（TRM）を開発する。
取得された候補を精練するための対照学習フレームワークで訓練されたクロスエンコーダーリランカーを設計する。
長文脈多言語検索システムの訓練と推論の効率を向上させる。

提案手法

RoPEとパディング解除を用いた MLM を用いて、75言語に及ぶ多様なコーパスでゼロから8k文脈多言語テキストエンコーダを事前学習する。
絶対的位置埋め込みを RoPE に置換、FFN を GLU にアップグレード、アテンションスコアの dropout を撤去、埋め込みを64の倍数へパディング、計算削減のために unpadding を適用。
対照学習を通じて密表現と疎表現の両方を得る TRM を構築し、In-batch または hard negative を用いた InfoNCE 目的関数を用いる。
Matryoshka 埋め込み（多次元サブベクトル）と疎トークン重み表現を取り入れ、長文脈検索を効率化。複数タスク微調整の目的で損失を組み合わせる。
同じエンコーダを用いて InfoNCE loss でクロスエンコーダーリランカーを訓練し、クエリ-ドキュメントペアに焦点を当てて関連性を予測する。

実験結果

リサーチクエスチョン

RQ1言語横断の長文脈検索を改善するために、8k文脈のネイティブな多言語エンコーダをゼロからどのように構築できるか？
RQ2ハイブリッドTRM（密表現＋疎表現）は多言語設定で効率的かつ正確な第1段階検索を提供できるか？
RQ3長文脈エンコーダの上に構築されたクロスエンコーダーリランカーは、多言語検索タスクにおける取得文書の最終ランキングを向上させるか？
RQ4unpadding と RoPE ベースのアーキテクチャを用いた長文脈 TRM の訓練と推論における効率向上はどの程度か？
RQ5提案モデルは、長文脈多言語ベンチマークで最先端の大型モデルと比較してどのように性能を発揮するか？

主な発見

モデル	パラメータ	シーケンス長	平均	MLDR	MIRACL	MKQA	BEIR	LoCo	ノート
BM25	-	-	47.0	53.6	31.9	28.1	41.7	79.9	-
mE5-base	279M	514	53.5	30.5	62.3	53.7	48.9	72.2	-
mE5-large	560M	514	57.7	34.2	65.4	63.5	51.4	74.3	-
E5-mistral-7b	7111M	32768	62.4	42.6	62.2	62.4	56.9	87.8	-
OpenAI-3-large	-	8191	-	-	54.9	62.1	55.4	79.4	-
BGE-M3 Dense	568M	8192	64.3	52.5	67.7	67.8	48.7	84.9	-
BGE-M3 Sparse	-	-	55.1	62.2	53.9	36.3	38.3	84.9	-
BGE-M3 Dense + Sparse	-	-	67.7	64.8	68.9	68.1	49.4	87.4	-
mGTE-TRM Dense	304M	8192	66.7	56.6	62.1	65.8	51.1	88.9	-
mGTE-TRM Sparse	-	-	57.2	71.0	55.9	31.6	39.2	88.1	-
mGTE-TRM Dense + Sparse	-	-	68.9	71.3	64.5	66.0	51.4	91.3	-

8k-context の mGTE エンコーダ（MLM-2048/8192var）は同じサイズの XLM-R-base を XTREME-R および GLUE ベンチマークで上回る。
TRM（Dense）は多言語ベンチマークで最先端の大規模モデルに近い検索スコアを達成し、長文脈タスクではいくつかのベースラインを上回る。
密表現と疎表現の両方を用いたTRM（およびマルチタスクTRM損失）は、ベースラインに対して長文脈検索性能を向上させる。
mGTE-reranker は同様のサイズで強力な事前のリランカー（bge-reranker-v2-m3）を上回り、効果的なリランキング能力を示す。
効率分析では、ベースラインに比べ最大14倍の高速化されたエンコーディング時間と、xFormers を用いたエンドツーエンドの unpadding による大規模コーパスでの実運用性の向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。