QUICK REVIEW

[論文レビュー] Adaptive Self-training for Few-shot Neural Sequence Labeling

Yaqing Wang, Subhabrata Mukherjee|arXiv (Cornell University)|Oct 7, 2020

Topic Modeling参考文献 46被引用数 35

ひとこと要約

本論文は MetaST を提案する。適応的自己学習とトークンレベルのメタ学習を組み合わせて偽ラベルデータを再重み付けするフレームワークであり、非常に少数のラベル付きデータと豊富な未ラベルデータを用いた神経系列ラベリングを可能にする。

ABSTRACT

Sequence labeling is an important technique employed for many Natural Language Processing (NLP) tasks, such as Named Entity Recognition (NER), slot tagging for dialog systems and semantic parsing. Large-scale pre-trained language models obtain very good performance on these tasks when fine-tuned on large amounts of task-specific labeled data. However, such large-scale labeled datasets are difficult to obtain for several tasks and domains due to the high cost of human annotation as well as privacy and data access constraints for sensitive user applications. This is exacerbated for sequence labeling tasks requiring such annotations at token-level. In this work, we develop techniques to address the label scarcity challenge for neural sequence labeling models. Specifically, we develop self-training and meta-learning techniques for training neural sequence taggers with few labels. While self-training serves as an effective mechanism to learn from large amounts of unlabeled data -- meta-learning helps in adaptive sample re-weighting to mitigate error propagation from noisy pseudo-labels. Extensive experiments on six benchmark datasets including two for massive multilingual NER and four slot tagging datasets for task-oriented dialog systems demonstrate the effectiveness of our method. With only 10 labeled examples for each class for each task, our method obtains 10% improvement over state-of-the-art systems demonstrating its effectiveness for the low-resource setting.

研究の動機と目的

ラベル不足に対処するため、未ラベルデータを活用してニューラル系列ラベリング（NERおよびスロットタグ付け）を行う。
情報量の多いラベル付き検証データを適応的に選択するエンドツーエンドのフレームワークを開発する。
ノイズの多い偽ラベルからの誤差伝播を、メタ学習ベースのトークンレベル再重み付けで緩和する。
few-shot 設定下で、多言語NERおよびタスク指向対話データセットに対する一般化を示す。

提案手法

小規模なラベル付きデータで微調整した事前学習済み言語モデル（teacher）を用いて、未ラベルデータの偽ラベルを生成する。
損失減衰を不確実性の代理指標として用い、オンザ-flyで保持済み検証セットを作成する適応的なラベル付きデータ取得。
適応的な検証セットに対する学生の損失に基づいて、偽ラベル付きトークンの再重み付けを行うメタ学習。
勾配ベースの摂動を用いた偽ラベルデータのトークンレベル再重み付けを、複数のラベル付きバッチに渡って統合し、頑健な重みを得る。
学生が重み付き偽ラベルから学習するエンドツーエンドの訓練で、教師は学生のパラメータで反復的に更新される。
6つのデータセットに渡って、完全教師付きBERTおよびいくつかの半教師付きベースラインとMetaSTを比較する。

実験結果

リサーチクエスチョン

RQ1トークンレベルのメタ学習を用いた適応的自己学習は、多様なデータセットと言語に跨るfew-shotの系列ラベリング性能を改善できるか？
RQ2適応的な検証セット構築とトークンレベルの再重み付けは、系列タグ付けにおける偽ラベルからのノイズを効果的に緩和できるか？
RQ3ラベル付きデータと未ラベルデータの量を変化させた場合のMetaSTの性能は、強力なベースラインと比べてどうか？
RQ4自己学習中のタスクフォーカスを維持するために、反復的な教師-学生の更新は有益か？
RQ5適応的データ取得やトークンレベル再重み付けのような要素は、全体の改善に大きく寄与するか？

主な発見

MetaSTは、同じエンコーダを用いたベースラインに対して、スロットごとに10件のラベル付き例で6データセットすべてを上回り、平均8.82–18.07ポイントの改善を達成した。
いくつかのデータセット（例: SNIPSおよびEmail）では、few-shot設定下で完全教師付きBERTとの差を縮める。
メタ学習によるトークンレベルの再重み付けは性能を大幅に向上させる一方、ソフトな偽ラベルはハードラベルと比較して性能を損なう。
適応的なラベル付きデータ取得は性能を改善し、特にスロットが多く多様性が高いタスク（例: SNIPS）で顕著。
ドメイン内の継続的な事前訓練は一部のタスクで有効だが、MetaSTはドメイン内・ドメイン横断のデータセットの双方で一貫して改善を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。