[論文レビュー] Template-free Prompt Tuning for Few-shot NER
本論文は EntLM を提示します。テンプレート不要のプロンプト微調整アプローチで NER を Entity-oriented LM タスクへ再定式化し、追加パラメータを導入せずに効率的なワンパスデコーディングと少数ショット性能の改善を実現します。
Prompt-based methods have been successfully applied in sentence-level few-shot learning tasks, mostly owing to the sophisticated design of templates and label words. However, when applied to token-level labeling tasks such as NER, it would be time-consuming to enumerate the template queries over all potential entity spans. In this work, we propose a more elegant method to reformulate NER tasks as LM problems without any templates. Specifically, we discard the template construction process while maintaining the word prediction paradigm of pre-training models to predict a class-related pivot word (or label word) at the entity position. Meanwhile, we also explore principled ways to automatically search for appropriate label words that the pre-trained models can easily adapt to. While avoiding complicated template-based process, the proposed LM objective also reduces the gap between different objectives used in pre-training and fine-tuning, thus it can better benefit the few-shot performance. Experimental results demonstrate the effectiveness of the proposed method over bert-tagger and template-based method under few-shot setting. Moreover, the decoding speed of the proposed method is up to 1930.12 times faster than the template-based method.
研究の動機と目的
- テンプレートの検索コストが高く、スパン列挙が禁止される場合の少数ショットNERの改善を動機づける。
- テンプレートなしでエンティティ位置でラベル語を予測する Entity-oriented LM (EntLM) 微調整を提案する。
- 適切な離散語または仮想ラベル語を特定するラベル語設計手法を調査する。
- EntLM が事前学習と微調整のギャップを縮め、少数ショット性能を高めることを示す。
提案手法
- EntLM 目的を用いてエンティティトークンをクラス関連のラベル語に置換することで NER を LM タスクとして定式化する。
- 事前学習済み LM ヘッドを再利用し、ファインチューニング中に新しいパラメータを導入しない。
- 離散語と仮想プロトタイプを含むラベル語設計手法を開発する。
- データ分布、LM 出力分布、またはそれらの組み合わせを用いてラベル語を選択する。必要に応じて語彙由来の注釈を使用する。
- スパン列挙せずに一回のデコードで全エンティティラベルを取得可能とする。
- 必要に応じて Viterbi デコーダを適用して、Struct 基盤デコーディングと組み合わせた場合の性能をさらに向上させる。
実験結果
リサーチクエスチョン
- RQ1テンプレートなしでも少数ショットの状況で NER を LM 目的へ効果的に再定式化して可能か?
- RQ2データ駆動 vs LM駆動など、どのラベル語戦略(離散 vs 仮想、データ主導 vs LM 主導)が EntLM を低リソース設定で最も支援するか?
- RQ3EntLM はテンプレートベースのプロンプト手法および標準的な微調整と少数ショット条件でどのように比較されるか?
- RQ4EntLM はテンプレートベースのアプローチと比べて効率的なデコードを維持するか?
- RQ5語彙の品質とドメイン適応前トレーニングが EntLM の性能に与える影響はどの程度か?
主な発見
- EntLM は CoNLL03, OntoNotes 5.0, MIT-Movie において、すべての少数ショット設定で BERT-tagger およびテンプレートベース NER を上回る。
- EntLM は基準よりも安定性(低い偏差)を高く発揮し、特に 5-shot で顕著。
- EntLM のデコーディングはテンプレートベース手法よりはるかに高速で、最大 1930.12x の speedup。
- Data+LM+Virtual の組み合わせ戦略によるラベル語設計は、小さな語彙でも堅牢な性能を提供。
- ラベルなしデータでの追加ドメイン特化 MLM 事前トレーニングは EntLM の性能を大幅に向上させ、分類器ベースの微調整より効果が大きい。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。