Skip to main content
QUICK REVIEW

[論文レビュー] ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding

Xing Wu, Chaochen Gao|arXiv (Cornell University)|Sep 9, 2021
Topic Modeling参考文献 22被引用数 69
ひとこと要約

ESimCSEは、(1) 単語/サブワードの反復を通じた安全な正ペア長伸長を用いること、(2) momentum contrast によるネガティブペアの増加により、ベンチマーク上でSimCSEより強いSTS性能を達成することで、教師なし文エンベディングを改善します。

ABSTRACT

Contrastive learning has been attracting much attention for learning unsupervised sentence embeddings. The current state-of-the-art unsupervised method is the unsupervised SimCSE (unsup-SimCSE). Unsup-SimCSE takes dropout as a minimal data augmentation method, and passes the same input sentence to a pre-trained Transformer encoder (with dropout turned on) twice to obtain the two corresponding embeddings to build a positive pair. As the length information of a sentence will generally be encoded into the sentence embeddings due to the usage of position embedding in Transformer, each positive pair in unsup-SimCSE actually contains the same length information. And thus unsup-SimCSE trained with these positive pairs is probably biased, which would tend to consider that sentences of the same or similar length are more similar in semantics. Through statistical observations, we find that unsup-SimCSE does have such a problem. To alleviate it, we apply a simple repetition operation to modify the input sentence, and then pass the input sentence and its modified counterpart to the pre-trained Transformer encoder, respectively, to get the positive pair. Additionally, we draw inspiration from the community of computer vision and introduce a momentum contrast, enlarging the number of negative pairs without additional calculations. The proposed two modifications are applied on positive and negative pairs separately, and build a new sentence embedding method, termed Enhanced Unsup-SimCSE (ESimCSE). We evaluate the proposed ESimCSE on several benchmark datasets w.r.t the semantic text similarity (STS) task. Experimental results show that ESimCSE outperforms the state-of-the-art unsup-SimCSE by an average Spearman correlation of 2.02% on BERT-base.

研究の動機と目的

  • Transformerエンコーダにおける同じ長さの正例ペアに起因するSimCSEのバイアスを特定する。
  • 意味を保ったまま正例ペアの長さを安全に拡張する手法を開発する。
  • momentum contrastを用いて、過大な計算コストを招くことなく有益なネガティブペアの数を増やす。
  • 標準的な意味的テキスト類似性ベンチマークで提案手法を評価する。
  • 組み合わせアプローチ(ESimCSE)がモデルを跨いで教師なし文エンベディングを改善することを示す。

提案手法

  • 意味を維持しつつ正例ペアの一方の要素を変更するために、word/sub-word repetitionを導入する。
  • momentum-contrast queueを適用して、momentum-updated encoderを用いてネガティブペアの集合を拡大する。
  • 両方の強化を標準のSimCSE目的関数と組み合わせてESimCSEを形成する。
  • 英語Wikipedia(1M文)を、BERT/RoBERTaバックボーンとCLS上のMLPで文の埋め込みを得る形で訓練する。
  • SimCSEのようにドロップアウトベースの正例対生成を使用するが、正例には独立に構築されたペアを用いる。
  • STSベンチマークとSpearman相関で評価し、SimCSEに対する平均向上を報告する。

実験結果

リサーチクエスチョン

  • RQ1SimCSEにおける同じ長さのバイアスは意味的類似性の学習に悪影響を与えるのか、そして安全な長さ拡張手法で緩和できるのか?
  • RQ2word/sub-word repetitionは意味を歪めることなく、安全かつ効果的な正例ペアの拡張を提供できるのか?
  • RQ3より多くのネガティブペアを作るためにmomentum contrastを組み込むことは、過度な計算なしに教師なし文エンベディングを改善するのか?
  • RQ4標準STSデータセット全体を通じて、これらの強化を組み合わせた場合のベースラインSimCSEに対する総合的な性能向上はどの程度か?

主な発見

  • ESimCSEはBERT-baseでSimCSEより平均Spearman相関を2.02%改善する。
  • 正例ペアのword/sub-word repetitionはSTSの改良を生み出す(例:STS-B開発はword repetitionで最大1.64ポイント、momentumで1.53ポイント、全ESimCSE構成で2.40ポイントまで改善)
  • Momentum contrastはキューと momentum-updated encoder を介してネガティブペアを拡張し、メモリコストを過度に増やすことなく学習を改善する。
  • モデルのバリアント(BERT base/large, RoBERTa base/large)全体で、ESimCSEはSTSベンチマークで一貫してSimCSEを上回る。
  • 転送タスクでは、ESimCSEはSimCSEより平均性能をわずかに向上させる(例:報告された転送タスクで86.06対85.81)。
  • アブレーション研究は、正例ペアの強化とネガティブペアの拡張の両方が意味のある寄与を示し、文長のビン分割は限られた影響または負の影響を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。