[論文レビュー] Uncertainty-aware Self-training for Text Classification with Few Labels
本論文は、不確実性を取り入れた自己学習フレームワーク(UST)を、MCドロップアウトによるベイズ的不確実性、BALDに基づくサンプル選択、および確信学習を組み合わせて、追加リソースなしでラベルが少ないテキスト分類のpseudo-label品質を向上させる。
Recent success of large-scale pre-trained language models crucially hinge on fine-tuning them on large amounts of labeled data for the downstream task, that are typically expensive to acquire. In this work, we study self-training as one of the earliest semi-supervised learning approaches to reduce the annotation bottleneck by making use of large-scale unlabeled data for the target task. Standard self-training mechanism randomly samples instances from the unlabeled pool to pseudo-label and augment labeled data. In this work, we propose an approach to improve self-training by incorporating uncertainty estimates of the underlying neural network leveraging recent advances in Bayesian deep learning. Specifically, we propose (i) acquisition functions to select instances from the unlabeled pool leveraging Monte Carlo (MC) Dropout, and (ii) learning mechanism leveraging model confidence for self-training. As an application, we focus on text classification on five benchmark datasets. We show our methods leveraging only 20-30 labeled samples per class for each task for training and for validation can perform within 3% of fully supervised pre-trained language models fine-tuned on thousands of labeled instances with an aggregate accuracy of 91% and improving by upto 12% over baselines.
研究の動機と目的
- 注釈のボトルネックを解消するためのラベルなしデータの活用を通じたテキスト分類の動機づけ。
- ベイズ的不確実性を用いて疑似ラベル付けをガイドする不確実性認識型自己学習フレームワークの開発。
- ノイズの多い疑似ラベルからのドリフトを最小化するための不確実性に基づくサンプル選択戦略の検討。
- 非常に少ないラベル例で5つのベンチマークテキスト分類データセットでの有効性を実証。
提案手法
- 小さなラベル付きセットで事前学習済み言語モデル(BERT)を教師モデルとしてファインチューニング。
- unlabeledデータに対して複数回の確率的フォワードパスを実行して不確実性推定を得るためにMCドロップアウトを使用。
- BALDベースの獲得スコアを計算して教師の混乱度に基づきラベルなしデータをランキングし、サンプル選択を行う。
- 選択されたラベルなしインスタンスからの難しい疑似ラベルを用いてトレーニングを拡張し、学生モデルをエンドツーエンドで再訓練。
- 予測分散を不確信学習(Confident Learning)としてラベルなしデータ損失に組み込み、低分散サンプルを強調。
- 容易なサンプリング vs 困難なサンプリング、クラス依存の選択、そしてコンフィデッド・ラーニングの成分をアブレーションで比較。
実験結果
リサーチクエスチョン
- RQ1不確実性を意識したサンプリングは、非常に限られたラベルでのテキスト分類の自己学習を改善できるか?
- RQ2BALDベースのサンプル選択は、この設定で一様サンプリングやバックトランスレーションベースの拡張より優れているか?
- RQ3予測分散(確信学習)を組み込むことが疑似ラベルの品質と最終精度にどのような影響を与えるか?
- RQ4クラスバランスのサンプリングとコンポーネントのアブレーションは、実行ごとの性能安定性にどう影響するか?
主な発見
| Dataset | Model | K Labels | Acc. |
|---|---|---|---|
| SST | UST (ours) | 30 | 88.19 |
| IMDB | UST (ours) | 30 | 89.21 |
| Elec | UST (ours) | 30 | 91.27 |
| AG News | UST (ours) | 30 | 87.74 |
| Dbpedia | UST (ours) | 30 | 98.57 |
- USTは、標準的な自己学習および同じエンコーダ(BERT-Base)を用い、クラスごとに30のラベルを持つ場合のバックトランスレーションベースのUDAを含むベースラインを上回る。
- 5つのデータセットにおいて、USTはベースラインと比較して総合精度が高く、分散を低減する傾向を示す(論文に報告されたベースモデルおよび/またはベースラインに対する平均的な改善)。
- 探索を伴うクラス依存サンプリングと確信学習は、アブレーションで頑健性と高精度に寄与。
- Easy vs hard戦略を用いた不確実性ベースのサンプリング(BALD)は、この自己学習設定で容易なサンプリングがしばしばより強い改善をもたらすことを示す。
- 数千のラベル付きデータを用いず、各クラスあたり20-30件のラベルと大規模なラベルなしプールだけで、ほぼ完全に教師付き学習に近い性能を達成。
- USTはタスク全体でベースモデルに対して最大12%の絶対改善を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。