QUICK REVIEW

[論文レビュー] Self-training Improves Pre-training for Natural Language Understanding

Jingfei Du, Édouard Grave|arXiv (Cornell University)|Oct 5, 2020

Topic Modeling参考文献 43被引用数 46

ひとこと要約

本論文は SentAugment を提案します。データ拡張と自己訓練のアプローチで、large web bank からタスク関連のイン-domain の文を取得して RoBERTa ベースの NLU モデルを改善し、複数のタスクで強力なベースラインを上回る利得を示します。また、知識蒸留と少数ショット学習にも有益であることを示します。

ABSTRACT

Unsupervised pre-training has led to much recent progress in natural language understanding. In this paper, we study self-training as another way to leverage unlabeled data through semi-supervised learning. To obtain additional data for a specific task, we introduce SentAugment, a data augmentation method which computes task-specific query embeddings from labeled data to retrieve sentences from a bank of billions of unlabeled sentences crawled from the web. Unlike previous semi-supervised methods, our approach does not require in-domain unlabeled data and is therefore more generally applicable. Experiments show that self-training is complementary to strong RoBERTa baselines on a variety of tasks. Our augmentation approach leads to scalable and effective self-training with improvements of up to 2.6% on standard text classification benchmarks. Finally, we also show strong gains on knowledge-distillation and few-shot learning.

研究の動機と目的

インドメイン源を超える未ラベルデータを活用して、自然言語理解の半教師あり学習を動機づける。
ウェブ規模の文データベースからタスクに関連するイン-domain 文を取得するために SentAugment を導入する。
SentAugment を用いた自己訓練が堅牢な事前学習ベースラインを補完し、下流タスクの性能を向上させることを示す。
オープンドメインデータを用いた知識蒸留と少数ショット学習への拡張を探る。

提案手法

取得のための未ラベルWeb文の大規模外部バンクを構築する（CC-100M/1B/5B）。
SASE（SentAugment Sentence Encoder）を、多言語マスクドLM目的とトリプレット損失で訓練し、パラフレーズ志向の埋め込みを作る。
各下流タスクについて、タスク埋め込み（all-average、label-average、per-sentence）を構築して文バンクを類似文で検索する。
教師モデルの信頼度で取得文をフィルタリングして、扱いやすいイン-domain 候補集合を得る。
タスクに微調整された RoBERTa-Large 教師を用いて取得文を合成的にラベル付けし、次に合成データに対してKL ダイバージェンスを用いて RoBERTa-Large 学生を訓練する。
オプションとして、より小さな学生モデルで知識蒸留を適用し、拡張データを用いた few-shot 設定で評価する。

実験結果

リサーチクエスチョン

RQ1オープンドメイン、イン-domain 拡張データを用いた自己訓練は自然言語理解において事前訓練と補完的になり得るか。
RQ2SentAugment はイン-domain の未ラベルデータなしで効果的なドメイン適応を可能にし、標準・少数ショット・蒸留タスクにどう影響するか。
RQ3SentAugment ベースの自己訓練から得られる利得を生み出す鍵となる要因（取得戦略、埋め込み品質、ラベリングパラダイム）は何か。
RQ4外部文バンクのスケールを拡大すると性能と計算コストはどう変化するか。

主な発見

SentAugment を用いた自己訓練は、六つのベンチマークで強力なベースラインを上回り、RoBERTa-Large の精度を平均で 1.2% 向上させる。
Few-shot learning gains average 3.5% with SentAugment (from 72.0% to 75.5%).
Knowledge distillation with SentAugment yields up to 85.4% average accuracy, approaching the teacher with significantly fewer parameters.
Using task-specific, label-average retrieval outperforms all-average retrieval for most tasks (83.1% avg).
Sentence embeddings based on para-embeddings (SASE) outperform word-average baselines, with SASE achieving 83.1% avg on evaluated tasks.
Increasing bank size from 50M to 1B lines improves performance; gains saturate beyond 1B up to 5B, with potential benefits for rare domains.
Using continuous posterior probabilities as synthetic labels (logits) yields better self-training results than discrete labels.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。