[論文レビュー] UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition
UniversalNERは、ChatGPT風のNER能力を任務志向の指示調整を通じて小型モデルに蒸留し、直接監視なしで大規模な UniNER ベンチマーク全体で最先端のオープンドメインNERを実現する。
Large language models (LLMs) have demonstrated remarkable generalizability, such as understanding arbitrary entities and relations. Instruction tuning has proven effective for distilling LLMs into more cost-efficient models such as Alpaca and Vicuna. Yet such student models still trail the original LLMs by large margins in downstream applications. In this paper, we explore targeted distillation with mission-focused instruction tuning to train student models that can excel in a broad application class such as open information extraction. Using named entity recognition (NER) for case study, we show how ChatGPT can be distilled into much smaller UniversalNER models for open NER. For evaluation, we assemble the largest NER benchmark to date, comprising 43 datasets across 9 diverse domains such as biomedicine, programming, social media, law, finance. Without using any direct supervision, UniversalNER attains remarkable NER accuracy across tens of thousands of entity types, outperforming general instruction-tuned models such as Alpaca and Vicuna by over 30 absolute F1 points in average. With a tiny fraction of parameters, UniversalNER not only acquires ChatGPT's capability in recognizing arbitrary entity types, but also outperforms its NER accuracy by 7-9 absolute F1 points in average. Remarkably, UniversalNER even outperforms by a large margin state-of-the-art multi-task instruction-tuned systems such as InstructUIE, which uses supervised NER examples. We also conduct thorough ablation studies to assess the impact of various components in our distillation approach. We release the distillation recipe, data, and UniversalNER models to facilitate future research on targeted distillation.
研究の動機と目的
- 広範な適用クラス(例:オープン情報抽出とNER)における大規模言語モデルと小型指示モデルの性能ギャップを埋めるための、標的化蒸留を動機づける。
- 未ラベルのウェブテキストから多様な指示調整データを生成して、より小さなモデルに任意のエンティティタイプを認識させる方法を調査する。
- 蒸留手法の領域横断・タイプ横断の一般化を評価するため、包括的なユニバーサルNERベンチマークを組み立てる。
提案手法
- Pileコーパスから抽出したパッセージに対してNERアノテーションを生成するためにChatGPTを使用し、多様で未ラベルの監督信号を作り出す。
- より小さなモデル(LLaMA-2ファミリー)に対して会話スタイルのテンプレートを用いた、任務志向の指示調整を適用し、パッセージからタイプ別にエンティティを抽出する(クエリごとに1タイプ、または1つのクエリで全タイプ)。
- パッセージに存在しないエンティティタイプを含めることでオープンワールド条件を模倣するネガティブサンプリングを組み込む。
- 多様なNERデータセット間でラベル意味論を調和させ、衝突を減らすためにデータセット特有の指示テンプレートを用いる。言い換えへの頑健性を高めるために定義を追加することもある。
- 人手でアノテーションされたデータを用いた監視付きファインチューニングを任意で行い、内-domainと外-domainの性能を改善する。ゼロショットと監視付きのレジームを別々に評価する。
- 9ドメイン(例:生物医学、プログラミング、ソーシャルメディア、法律、金融)にまたがる43データセットからなるUniversalNERベンチマークを構築・評価する。
実験結果
リサーチクエスチョン
- RQ1ミッション志向の指示調整に guided されたLLMからの標的化蒸留が、多様なエンティティタイプとドメインに対して、LLMのオープンドメインNER能力を再現または上回ることができるか。
- RQ2データ構築の選択(入力サンプリング、ネガティブサンプリング、テンプレート設計)が蒸留モデルのゼロショットNER性能にどう影響するか。
- RQ3ドメインカバレッジ、データセット特有のラベル調和、部分一致評価がUniversalNERの有効性に与える影響。
- RQ4ゼロショットおよび監視付き設定で、UniNERは強力な指示調整済みおよび監視付きシステム(例:ChatGPT、Vicuna、InstructUIE)とどう比較されるか。
- RQ5人手アノテーションによる監視付きファインチューニングは、オープンドメインNERの跨域一般化をさらに向上させるか。
主な発見
- 蒸留された UniNER モデル(7B、13B)は、ゼロショットNERで UniNER ベンチマーク全体において平均で ChatGPT を上回る。
- UniNER-13B は UniNER-7B より平均 F1 が高く、蒸留容量の大きさの利点を示す。
- UniNER は複数のドメインで、ゼロショットおよび監視付き設定の平均で Vicuna および InstructUIE を上回る。
- 指示調整の性能向上において、頻度ベースの選択を伴うネガティブサンプリングは極めて重要。
- データセット特有のテンプレートは、特にデータセット間で重複するラベルに対して、総じて性能を向上させる。
- 監視付き・インドメイン評価では、UniNER-7Bは20データセットで平均F1 84.78%、BERT-baseおよびInstructUIE-11Bを上回る。継続的な監視付きファインチューニングは、アウトオブドメイン評価で平均F1 60.0%を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。