Skip to main content
QUICK REVIEW

[論文レビュー] Meta-Learning Triplet Network with Adaptive Margins for Few-Shot Named Entity Recognition

Chengcheng Han, Renyu Zhu|arXiv (Cornell University)|Feb 14, 2023
Topic Modeling被引用数 10
ひとこと要約

MeTNetは、適応マージンとエンティティタイプのプロトタイプベクトルのみを使用するメタ学習トリプレットネットワークを導入し、Oクラスを除くエンティティタイプの少数ショットNERの性能を向上させ、優れたパフォーマンスを示し、中国語データセット FEW-COMM を公開します。

ABSTRACT

Meta-learning methods have been widely used in few-shot named entity recognition (NER), especially prototype-based methods. However, the Other(O) class is difficult to be represented by a prototype vector because there are generally a large number of samples in the class that have miscellaneous semantics. To solve the problem, we propose MeTNet, which generates prototype vectors for entity types only but not O-class. We design an improved triplet network to map samples and prototype vectors into a low-dimensional space that is easier to be classified and propose an adaptive margin for each entity type. The margin plays as a radius and controls a region with adaptive size in the low-dimensional space. Based on the regions, we propose a new inference procedure to predict the label of a query instance. We conduct extensive experiments in both in-domain and cross-domain settings to show the superiority of MeTNet over other state-of-the-art methods. In particular, we release a Chinese few-shot NER dataset FEW-COMM extracted from a well-known e-commerce platform. To the best of our knowledge, this is the first Chinese few-shot NER dataset. All the datasets and codes are provided at https://github.com/hccngu/MeTNet.

研究の動機と目的

  • 少数ショットNERにおけるOクラスの単一プロトタイプを避け、Oクラスの多様性を表現する課題に対処する。
  • サンプルとタイププロトタイプを識別的な低次元空間にマッピングするトリプレットネットワークを活用する。
  • エンティティタイプごとに適応マージン(領域)を学習し、分類領域を制御して推論を改善する。
  • 英語・中国語のデータセット双方で少数ショットNERの性能を向上させ、クロスドメイン設定も含む。
  • 再現性とさらなる研究を支援するデータセット/コードの提供。

提案手法

  • 単語をBERT埋め込みで表現し、ラベル付きインスタンスの平均からエンティティタイプのプロトタイプを初期化する。
  • アンカーをタイププロトタイプ、ポジティブを同一タイプのインスタンス、ネガティブを最近傍とするトリプルを構築し、タイプごとに複数のトリプルを生成する。
  • 各タイプに対して適応マージンmiを用いた改良型トリプレット損失を提案し、アンカーとの距離でサンプルを重み付け、絶対距離を最適化してd_pを最小化、d_nを最大化する。
  • 適応マージンを領域半径として用い、各タイププロトタイプの周囲に決定領域を定義する。領域の外にあるインスタンスはOクラスを予測し、そうでなければ最も近い領域のタイプを割り当てる。
  • MAMLに触発された2段階更新で訓練する:まずサポートセットでtheta'を得て更新し、次にクエリセットで thetaを更新する。

実験結果

リサーチクエスチョン

  • RQ1Oクラスを含めずエンティティタイプのプロトタイプのみと適応マージンが少数ショットNERの識別性を改善するか?
  • RQ2適応マージントリプレット損失は固定マージンや標準のトリプレット損失より領域ガイダンスを提供できるか?
  • RQ3MeTNetはインドメインおよびクロスドメインの少数ショットNER設定で、New Chinese datasetを含む形でどの程度性能を示すか?
  • RQ4マージンに基づく推論手順が最終的なラベル予測に与える影響は、プロトタイプ距離に基づく推論と比較してどうか?

主な発見

  • MeTNetは、FEW-NERDの1-shotおよび5-shotの両方の設定で、インドメイン・クロスドメインタスクの最先端ベースラインを一貫して上回る。
  • 適応マージン機構は領域ベースの決定規則を生み出し、単一のOプロトタイプを避けることでOクラスの混同を減らす。
  • マージンベースの推論手順は、領域の包含または重なりが発生する場合に最も近い領域センターでクエリをラベル付けする効果的な推論を提供する。
  • アブレーション研究により、トリプレットネットワークと適応マージンが性能に大きく寄与し、MAMLが一般化に寄与することが示された。
  • 著者はFEW-COMM中国語データセットを公開し、再現性のためのコードとハイパーパラメータを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。