QUICK REVIEW

[論文レビュー] Supervised Contrastive Learning for Pre-trained Language Model Fine-tuning

Beliz Gunel, Jingfei Du|arXiv (Cornell University)|Nov 3, 2020

Topic Modeling参考文献 60被引用数 60

ひとこと要約

この論文は、事前学習済み言語モデルのファインチューニング目的に、標準のファインチューニング目標に監視付き対比学習項を追加し、少数ショットのGLUE性能を向上させ、ノイズのあるデータに対するロバスト性と関連タスクへの一般化を、追加データやアーキテクチャ変更なしで実現する。

ABSTRACT

State-of-the-art natural language understanding classification models follow two-stages: pre-training a large language model on an auxiliary task, and then fine-tuning the model on a task-specific labeled dataset using cross-entropy loss. However, the cross-entropy loss has several shortcomings that can lead to sub-optimal generalization and instability. Driven by the intuition that good generalization requires capturing the similarity between examples in one class and contrasting them with examples in other classes, we propose a supervised contrastive learning (SCL) objective for the fine-tuning stage. Combined with cross-entropy, our proposed SCL loss obtains significant improvements over a strong RoBERTa-Large baseline on multiple datasets of the GLUE benchmark in few-shot learning settings, without requiring specialized architecture, data augmentations, memory banks, or additional unsupervised data. Our proposed fine-tuning objective leads to models that are more robust to different levels of noise in the fine-tuning training data, and can generalize better to related tasks with limited labeled data.

研究の動機と目的

クロスエントロピー損失を超えるファインチューニングの一般化と安定性の向上を動機づける。
ファインチューニング中に同一クラスの例同士の類似性を活用し、異なるクラスの例を対比させる。
分類のために監督付き対比損失をクロスエントロピーと統合した組合せ損失を開発する。

提案手法

多クラス分類のためにジョイント損失 L = (1 - λ) L_CE + λ L_SCL を提案する。
L_CE はモデル出力上の標準的なクロスエントロピー損失である。
L_SCL はエンコーダ空間で同じクラスの例を近づけ、異なるクラスの例を離す。温度 τ と L2 正規化表現を用いる。
エンコーダ Φ(x) は最終隠れ層から L2 正規化された表現を出力する（BERT 系モデルの CLS トークン）。
タスクごとに λ と τ を調整する。実証結果は多くの設定で τ = 0.3 および λ = 0.9 を支持する。

実験結果

リサーチクエスチョン

RQ1低データ領域において、監督付き対比項は事前学習済み言語モデルのファインチューニングを改善できるか？
RQ2L_SCL とクロスエントロピーを組み合わせることで、ファインチューニング中のノイズのあるラベル付きデータに対するロバスト性が向上するか？
RQ3提案された目的関数は GLUE タスク全体で、単一文および文ペアの NLP タスクの両方に有益か？
RQ4限られたラベル付きデータで関連タスクへの一般化を向上させるか？

主な発見

少数ショット設定では、CE+SCL は RoBERTa-Large を SST-2、QNLI、MNLI で改善し、N=20 のとき QNLI で最大 10.7 ポイントの改善を達成。
20、100、1000 のラベル付き例では、CE+SCL は CE に対して一貫したゲインを示し、例えば 20 の場合 MNLI で 3.4 ポイント、SST-2 で 2.2 ポイント。データ量が増えるとゲインは小さくなる。
CE+SCL はノイジーなファインチューニングデータに対するロバスト性を生み出し、高ノイズレベル（T=0.7）でMNLI を最大7ポイント、QNLI を 4.2（T=0.9）改善。
CE+SCL は限られたラベルデータで関連タスクへの一般化を改善し、例えば Amazon-2 で CE のみより 2.9 ポイント向上、少数ショット転送で分散の低下を示す。
全 GLUE にわたり、CE+SCL は MRPC で 3.1 ポイント、QNLI で 3.5 ポイントの有意なゲインをもたらし、6 タスク平均で 1.2 ポイント改善。バッチサイズを大きくするとゲインが拡大する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。