QUICK REVIEW

[論文レビュー] Zero- and Few-Shot Named-Entity Recognition: Case Study and Dataset in the Crime Domain (CrimeNER)

Miguel Lopez-Duran, Julian Fierrez|arXiv (Cornell University)|Mar 2, 2026

Topic Modeling被引用数 0

ひとこと要約

この論文は CrimeNERdb を紹介する。粗粒度（5タイプ）と細粒度（22タイプ）のラベルを持つ1.5kの犯罪分野NERデータセットを作成し、SOTAモデルとLLMを用いたゼロショット・Few-shot NERを評価する。

ABSTRACT

The extraction of critical information from crime-related documents is a crucial task for law enforcement agencies. Named-Entity Recognition (NER) can perform this task in extracting information about the crime, the criminal, or law enforcement agencies involved. However, there is a considerable lack of adequately annotated data on general real-world crime scenarios. To address this issue, we present CrimeNER, a case-study of Crime-related zero- and Few-Shot NER, and a general Crime-related Named-Entity Recognition database (CrimeNERdb) consisting of more than 1.5k annotated documents for the NER task extracted from public reports on terrorist attacks and the U.S. Department of Justice's press notes. We define 5 types of coarse crime entity and a total of 22 types of fine-grained entity. We address the quality of the case-study and the annotated data with experiments on Zero and Few-Shot settings with State-of-the-Art NER models as well as generalist and commonly used Large Language Models.

研究の動機と目的

DOJとGTDソースから現実的なドメインコンテンツを含む一般的な犯罪関連NERデータセットを作成する。
粗粒度5タイプと細粒度22タイプの二段階エンティティ分類と注釈ガイドラインを定義する。
最先端モデルと大規模言語モデルを用いてCrimeNERdbのゼロショット・Few-shot NER性能をベンチマークする。

提案手法

DOJプレスノートとGTDテロリスト報告からNoiseを除去した後、CrimeNERdbを1.5k件超の文書へ組み立てた。
粗粒度（Crime, Actor, Agent, Agency, Logistic）と22の細粒度タイプという二段階エンティティ分類を定義した。
Doccanoを用いてネストされたNERラベルを可能にするネスト/重複ラベル付きのトークン注釈を行った。
複数モデルでゼロショット・Few-shotを評価（NUNERと一般目的LLM（GPT-4o-Mini, GPT-4.1-Mini, Gemini-2.5-Flash）、Weak Few-ShotにはCONTaiNERを併用）。
細粒度評価では、ゼロショットでLLMの中でトップパフォーマーとしてGPT-4.1-Miniを使用；1/5/10ショット実験にはGPT-4o-Miniを使用；Few-ShotはCONTaiNERと比較。

実験結果

リサーチクエスチョン

RQ1CrimeNERdbは一般的な犯罪関連NERデータをサイバーセキュリティ領域を超えて manual 注釈データとして提供できるか。
RQ2ゼロショットとFew-shotのNERモデル（大規模言語モデルを含む）は粗粒度・細粒度の犯罪エンティティタイプでどのように性能を示すか。
RQ3専門的なNERモデルと一般目的LLMの相対的な性能はこのドメインでどうか。
RQ4注釈データはベンチマークや将来のマルチモーダル/マルチリンガル拡張に適しているか。

主な発見

Entity type	# Entity spans	# Tokens	# Documents
Crime	1377	6013	876
Actor	1416	2634	854
Agent	526	2932	330
Agency	808	2955	549
Logistic	1888	4009	927

CrimeNERdbは1,568件の文書、6,013のCrimeトークン、2,634のActorトークン、2,932のAgentトークン、2,955のAgencyトークン、4,009の Logisticトークンを含み、粗粒度タイプごとに876〜927件の文書をカバーする。
ゼロショットの結果、GPT-4.1-Miniが報告済みのLLMの中で粗粒度エンティティに対するF1が最も高く（例：F1は最大28.32）、NUNERは非常に限定的な訓練タイプで競合スコアを達成。
細粒度のゼロショット結果は、Logisticが最もラベル精度が高いタイプである一方、犯罪関連の細粒度タイプは一般的にラベリングが難しい。
Few-shotでは、CONTaiNERとGPT-4o-Miniが多くの場面で他を上回り、1-shotおよび5-shot設定で優勢。10-shotでは一部の構成でGPT-4o-MiniをCONTaiNERが上回ることもある。GPT-4o-Miniは複数の細粒度セットで高い性能を示す。
全体として、データセットの品質は、既存のベースラインとLLMに対して競争力のあるゼロショット・Few-shotベンチマークにより検証されている。
本研究はCrimeNERdbを犯罪領域NER研究の資源としての実現性と、将来のマルチモーダル/マルチリンガル拡張のベースラインとして妥当性を確認している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。