QUICK REVIEW

[論文レビュー] CLEAR: Contrastive Learning for Sentence Representation

Zhuofeng Wu, Sinong Wang|arXiv (Cornell University)|Dec 31, 2020

Topic Modeling参考文献 28被引用数 230

ひとこと要約

CLEARは four augmentations（word/span deletion、reordering、synonym substitution）を MLM に加え、文レベルの対照損失を導入して Transformer を事前学習し、GLUE と SentEval の性能を向上させる。拡張はタスク依存の利点を生み出し、より大きなバッチサイズと対照損失の両方が改善に寄与する。

ABSTRACT

Pre-trained language models have proven their unique powers in capturing implicit language features. However, most pre-training approaches focus on the word-level training objective, while sentence-level objectives are rarely studied. In this paper, we propose Contrastive LEArning for sentence Representation (CLEAR), which employs multiple sentence-level augmentation strategies in order to learn a noise-invariant sentence representation. These augmentations include word and span deletion, reordering, and substitution. Furthermore, we investigate the key reasons that make contrastive learning effective through numerous experiments. We observe that different sentence augmentations during pre-training lead to different performance improvements on various downstream tasks. Our approach is shown to outperform multiple existing methods on both SentEval and GLUE benchmarks.

研究の動機と目的

語彙レベルの目的を超えて、より良い文表現を学習する動機付け。
NLPにおける対照学習に適した文レベルのデータ拡張を調査する。
MLM と対照損失の組み合わせで Transformer を事前学習し、ノイズに頑健な文表現を学習する。
異なる拡張が下流タスクの性能とロバスト性にどのように影響するかを示す。

提案手法

CLEARを提案する: 拡張された文のペアに適用される対照損失 L_CL を持つ射影ヘッド g(·) を備えたエンコーダ f(·) を CLEAR として。
集合 A の拡張（単語削除、スパン削除、同義語置換、再順序付け）を用いて各文の2つの拡張ビューを生成する。
ミニバッチ内のポジティブペアをコサイン類似度と温度 τ を用いて比較し L_CL を計算する（SimCLR系の損失）。
L_total = L_MLM + L_CL として、ゼロからの事前学習で L_CL を MLM 損失と結合。
GLUE と SentEval のベンチマークを用いて文表現を評価。
CL 損失とバッチサイズの効果を分離するアブレーションを行い、どの拡張がどのタスクに有効かを分析。

実験結果

リサーチクエスチョン

RQ1慎重に設計された拡張を用いた文レベルの対照学習は、語彙レベルのみの目的より文表現を改善するか？
RQ2削除、スパン削除、置換、再順序付けなどのどの拡張戦略が、異なる下流タスクの向上に寄与するか？
RQ3MLMとCLを組み合わせた場合は、ゼロからの事前学習において MLM 単独や CL 単独と比較してどうか？
RQ4バッチサイズと対照目的のそれぞれが、観測された改善にどの程度寄与しているか？
RQ5CLSトークン表現または平均プーリングが対照的な事前学習と相互作用し、下流の性能に影響を与えるか？

主な発見

手法	MNLI	QNLI	QQP	RTE	SST-2	MRPC	CoLA	STS	Avg
BERT-base	84.0	89.0	89.1	61.0	93.0	86.3	57.3	89.5	81.2
RoBERTa-base	87.2	93.2	88.2	71.8	94.4	87.8	56.1	89.4	83.5
MLM+del-word	86.8	93.0	90.2	79.4	94.2	89.7	62.1	90.5	85.7
MLM+del-span	87.3	92.8	90.1	79.8	94.4	89.9	59.8	90.3	85.6
MLM+subs+del-word	87.3	93.1	90.0	73.3	93.7	90.2	62.1	90.1	85.0
MLM+subs+del-span	87.0	93.4	90.3	74.4	94.3	90.5	63.3	90.5	85.5
MLM+del-word+reorder	87.0	92.7	89.5	76.5	94.5	90.6	59.1	90.4	85.0
MLM+del-span+reorder	86.7	92.9	90.0	78.3	94.5	89.2	64.3	89.8	85.7

CLEARで事前学習したモデルは、GLUEとSentEvalのベンチマークでRoBERTaおよびBERTのベースラインを上回る。
特定の拡張（例: MLM+del-word、MLM+del-span、MLM+del-span+reorder）は、RoBERTaに対して8つのGLUEタスクの平均で+2.2%、7つのSentEval STSタスクで+5.7%をもたらす。
異なる拡張は異なるタスクに利益をもたらす。例えば MLM+subs+del-span は QQP と STS に優れ、MLM+del-span は MNLI、QNLI、RTE の推論系タスクを改善。
性能向上は、より大きなバッチサイズと対照損失の両方に由来し、単なるバッチサイズだけではない。
CLSトークンの埋め込みは、SentEval の評価で平均プーリングよりもCL学習の恩恵を受けることが多い。
CL の追加は STS タスクを顕著に改善し、類似文ペアの整合性の向上を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。