[論文レビュー] Supervised Contrastive Learning for Pre-trained Language Model Fine-tuning
この論文は、事前学習済み言語モデルのファインチューニング目的に、標準のファインチューニング目標に監視付き対比学習項を追加し、少数ショットのGLUE性能を向上させ、ノイズのあるデータに対するロバスト性と関連タスクへの一般化を、追加データやアーキテクチャ変更なしで実現する。
State-of-the-art natural language understanding classification models follow two-stages: pre-training a large language model on an auxiliary task, and then fine-tuning the model on a task-specific labeled dataset using cross-entropy loss. However, the cross-entropy loss has several shortcomings that can lead to sub-optimal generalization and instability. Driven by the intuition that good generalization requires capturing the similarity between examples in one class and contrasting them with examples in other classes, we propose a supervised contrastive learning (SCL) objective for the fine-tuning stage. Combined with cross-entropy, our proposed SCL loss obtains significant improvements over a strong RoBERTa-Large baseline on multiple datasets of the GLUE benchmark in few-shot learning settings, without requiring specialized architecture, data augmentations, memory banks, or additional unsupervised data. Our proposed fine-tuning objective leads to models that are more robust to different levels of noise in the fine-tuning training data, and can generalize better to related tasks with limited labeled data.
研究の動機と目的
- クロスエントロピー損失を超えるファインチューニングの一般化と安定性の向上を動機づける。
- ファインチューニング中に同一クラスの例同士の類似性を活用し、異なるクラスの例を対比させる。
- 分類のために監督付き対比損失をクロスエントロピーと統合した組合せ損失を開発する。
提案手法
- 多クラス分類のためにジョイント損失 L = (1 - λ) L_CE + λ L_SCL を提案する。
- L_CE はモデル出力上の標準的なクロスエントロピー損失である。
- L_SCL はエンコーダ空間で同じクラスの例を近づけ、異なるクラスの例を離す。温度 τ と L2 正規化表現を用いる。
- エンコーダ Φ(x) は最終隠れ層から L2 正規化された表現を出力する(BERT 系モデルの CLS トークン)。
- タスクごとに λ と τ を調整する。実証結果は多くの設定で τ = 0.3 および λ = 0.9 を支持する。
実験結果
リサーチクエスチョン
- RQ1低データ領域において、監督付き対比項は事前学習済み言語モデルのファインチューニングを改善できるか?
- RQ2L_SCL とクロスエントロピーを組み合わせることで、ファインチューニング中のノイズのあるラベル付きデータに対するロバスト性が向上するか?
- RQ3提案された目的関数は GLUE タスク全体で、単一文および文ペアの NLP タスクの両方に有益か?
- RQ4限られたラベル付きデータで関連タスクへの一般化を向上させるか?
主な発見
- 少数ショット設定では、CE+SCL は RoBERTa-Large を SST-2、QNLI、MNLI で改善し、N=20 のとき QNLI で最大 10.7 ポイントの改善を達成。
- 20、100、1000 のラベル付き例では、CE+SCL は CE に対して一貫したゲインを示し、例えば 20 の場合 MNLI で 3.4 ポイント、SST-2 で 2.2 ポイント。データ量が増えるとゲインは小さくなる。
- CE+SCL はノイジーなファインチューニングデータに対するロバスト性を生み出し、高ノイズレベル(T=0.7)でMNLI を最大7ポイント、QNLI を 4.2(T=0.9)改善。
- CE+SCL は限られたラベルデータで関連タスクへの一般化を改善し、例えば Amazon-2 で CE のみより 2.9 ポイント向上、少数ショット転送で分散の低下を示す。
- 全 GLUE にわたり、CE+SCL は MRPC で 3.1 ポイント、QNLI で 3.5 ポイントの有意なゲインをもたらし、6 タスク平均で 1.2 ポイント改善。バッチサイズを大きくするとゲインが拡大する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。