QUICK REVIEW

[論文レビュー] Supervised Contrastive Learning for Pre-trained Language Model Fine-tuning

Beliz Gunel, Jingfei Du|arXiv (Cornell University)|Nov 2, 2020

Topic Modeling被引用数 215

ひとこと要約

本論文は、事前学習済み言語モデルのファインチューニング目的として標準のクロスエントロピーに監督付き対照学習項を追加し、追加データやアーキテクチャなしでGLUEタスクにおけるfew-shot性能と頑健性を向上させる。

ABSTRACT

State-of-the-art natural language understanding classification models follow two-stages: pre-training a large language model on an auxiliary task, and then fine-tuning the model on a task-specific labeled dataset using cross-entropy loss. However, the cross-entropy loss has several shortcomings that can lead to sub-optimal generalization and instability. Driven by the intuition that good generalization requires capturing the similarity between examples in one class and contrasting them with examples in other classes, we propose a supervised contrastive learning (SCL) objective for the fine-tuning stage. Combined with cross-entropy, our proposed SCL loss obtains significant improvements over a strong RoBERTa-Large baseline on multiple datasets of the GLUE benchmark in few-shot learning settings, without requiring specialized architecture, data augmentations, memory banks, or additional unsupervised data. Our proposed fine-tuning objective leads to models that are more robust to different levels of noise in the fine-tuning training data, and can generalize better to related tasks with limited labeled data.

研究の動機と目的

限られたラベル付きデータ下でのクロスエントロピー Fine-tuning における一般化のギャップと不安定性に対処する動機。
ラベル付きNLPタスク向けに特化した監督付き対照学習 (SCL) 項を導入。
CEとSCLを組み合わせることでノイズラベルに対する頑健性が向上し、関連タスクへの転移も改善されることを示す。
SCLベースのファインチューニングがSST-2、QNLI、MNLIにおいてGLUEでより良いfew-shot結果をもたらすことを示す。

提案手法

温度 tau と L2-正規化特徴量を用いて、ジョイント損失 L = (1 - lambda) * L_CE + lambda * L_SCL を定義。
同一クラスの例を結びつけ、異なるクラスの例をバッチ内で離すことで L_SCL を計算（-式(3)）。
[CLS] トークンの埋め込みを各例の表現として使用し、GLUEタスクでRoBERTa-Largeをファインチューニング。
lambda を {0.1,0.3,0.5,0.7,0.9,1.0}、tau を {0.1,0.3,0.5,0.7} でグリッドサーチを行い、tau = 0.3 および lambda = 0.9 がしばしば最良の結果を与える。
様々な温度 T でのバック-翻訳によりノイズのある訓練データを作成して頑健性を検討（セクション4.2）。
RoBERTa-Large を用いたGLUEでfew-shotとfull-dataの実験をベンチマークし、種ごとの平均と標準偏差を報告。

実験結果

リサーチクエスチョン

RQ1ファインチューニングに監督付き対照損失を組み込むと、few-shot NLP分類性能は向上するか。
RQ2SCL目的関数は、標準のクロスエントロピーよりラベルノイズやデータ拡張に対して頑健か。
RQ3ラベルデータが不足している場合、SCLは関連タスクへの一般化を向上させるか。
RQ4CE+SCLを用いると、バッチサイズは性能と学習速度にどう影響するか。
RQ5SCLはタスク特化モデルの関連ドメインへの転移可能性を高めるか。

主な発見

20-shot 設定で、CE+SCLはタスクとデータサイズに応じて最大で 2.2–10.7 ポイント、CEベースラインを上回る。
全GLUE実験では、CE+SCLが六つのタスクを横断してRoBERTa-Large CEベースラインに対し平均約 1.2 ポイントの改善をもたらす（MRPCとQNLIで有意）。
CE+SCLはノイズ付きデータ拡張に対して頑健で、ノイズレベルを超えて平均利益は 0.4–7.0 ポイント、難度が高いタスク（MNLI、QNLI）でより大きな向上。
温度スケーリング（tau）と L2 ノーマライゼーションによるハードネガティブが、表現中の同一クラス事例のクラスタリング改善に寄与（tSNE証拠）。
CE+SCLはドメイン横断一般化を改善：SST-2で訓練したモデルは、Amazon-2およびYelp-2へ、ラベル付きデータが少ない場合により良く転移する。
バッチサイズの増加はCE+SCLの利点を増幅し、大きいバッチで更新回数（updates per second）も学習速度により顕著に影響する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。