QUICK REVIEW

[論文レビュー] Few-Shot Named Entity Recognition: A Comprehensive Study

Jiaxin Huang, Chunyuan Li|arXiv (Cornell University)|Dec 29, 2020

Topic Modeling参考文献 67被引用数 51

ひとこと要約

本論文は、プロトタイプを用いたメタ学習、ウェブデータ上のノイズ付き教師あり事前学習、および自己学習の4戦略を、Transformerバックボーンとともに体系的に検討し、少数ショットNERの性能向上を図り、10データセットで最先端の結果を示し、訓練不要のオプションを提供する。

ABSTRACT

This paper presents a comprehensive study to efficiently build named entity recognition (NER) systems when a small number of in-domain labeled data is available. Based upon recent Transformer-based self-supervised pre-trained language models (PLMs), we investigate three orthogonal schemes to improve the model generalization ability for few-shot settings: (1) meta-learning to construct prototypes for different entity types, (2) supervised pre-training on noisy web data to extract entity-related generic representations and (3) self-training to leverage unlabeled in-domain data. Different combinations of these schemes are also considered. We perform extensive empirical comparisons on 10 public NER datasets with various proportions of labeled data, suggesting useful insights for future research. Our experiments show that (i) in the few-shot learning setting, the proposed NER schemes significantly improve or outperform the commonly used baseline, a PLM-based linear classifier fine-tuned on domain labels; (ii) We create new state-of-the-art results on both few-shot and training-free settings compared with existing methods. We will release our code and pre-trained models for reproducible research.

研究の動機と目的

非常に限られたドメイン内ラベル付きデータで効率的なNERを動機づける。
3つの直交的戦略（プロトタイプベースのメタ学習、ウェブデータでのノイズ付き教師あり事前学習、未ラベルのドメイン内データでの自己学習）を用いて一般化を改善することを調査。
これらの戦略の組み合わせを、多様なNERデータセットに渡って評価し、将来の研究のための実用的な指針を導出する。
各戦略が最も効果を発揮する時期と、それらがどのように相互補完するかについて洞察を提供する。

提案手法

プロトタイプベースのメタ学習（プロトタイプネットワーク）を用いてエンティティタイプをプロトタイプとして表現し、最も近いプロトタイプ距離でクエリトークンを分類する。
大規模ウェブデータ（WiNER）上でノイズ付き教師あり事前学習（NSP）を行い、エンティティ関連表現を学習する。線形分類器またはプロトタイプベースの目的を用いる。
自己学習（ST）により、ラベル付きデータで教師を訓練して未ラベルのドメイン内データへソフトラベルを生成し、それに基づいて生徒モデルを訓練する。
組み合わせ（LC、NSP、ST）の系統的評価を、ラベル利用可能性（5-shot、10%、100%）を変化させた10の公開NERデータセットで実施。
SoTA手法との比較と、プロトタイプ拡張を用いた訓練不要の未知タイプ推論シナリオの分析。

実験結果

リサーチクエスチョン

RQ1プロトタイプベースのメタ学習をどのように少数ショットNERに適用・適応させることができるか？
RQ2大規模ウェブデータでのノイズ付き教師あり事前学習は、少数ショットNERの堅牢性と精度を向上させるか？
RQ3自己学習は、未ラベルのドメイン内データを効果的に活用して少数ショットNERの性能を向上させることができるか？
RQ4これらの戦略の組み合わせは、多様なデータセットにおいて標準的なファインチューニングのベースラインとどのように比較されるか？
RQ5見たことのないエンティティタイプでの訓練不要NERに関する実践的含意は何か？

主な発見

ノイズ付き教師あり事前学習は一貫してNERの精度を改善し、特に5-shot設定で顕著である。
プロトタイプベースの方法は5-shotでいくつかのデータセットで線形分類器を上回るが、データセット依存であり他のデータセットでは劣る可能性がある。
自己学習は未ラベルデータが利用可能な場合、すべてのデータセットで少数ショットの性能を一貫して向上させる。
3つの方式すべてを組み合わせる（LC+NSP+ST）は大半のケースで最良の結果をもたらし、しばしばSoTA手法を上回る。
訓練不要シナリオでは、未知タイプが存在するときにマルチプロトタイプ拡張が役立ち、最近傍推定を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。