QUICK REVIEW

[논문 리뷰] Zero- and Few-Shot Named-Entity Recognition: Case Study and Dataset in the Crime Domain (CrimeNER)

Miguel Lopez-Duran, Julian Fierrez|arXiv (Cornell University)|2026. 03. 02.

Topic Modeling인용 수 0

한 줄 요약

논문은 차별화된 1.5k 문서의 범죄 도메인 NER 데이터세트 CrimeNERdb를 소개하며, 거친(coarse: 5종) 및 세분화(fine-grained: 22종) 라벨을 갖고, SOTA 모델 및 대형 언어 모델을 사용한 Zero- 및 Few-shot NER을 평가합니다.

ABSTRACT

The extraction of critical information from crime-related documents is a crucial task for law enforcement agencies. Named-Entity Recognition (NER) can perform this task in extracting information about the crime, the criminal, or law enforcement agencies involved. However, there is a considerable lack of adequately annotated data on general real-world crime scenarios. To address this issue, we present CrimeNER, a case-study of Crime-related zero- and Few-Shot NER, and a general Crime-related Named-Entity Recognition database (CrimeNERdb) consisting of more than 1.5k annotated documents for the NER task extracted from public reports on terrorist attacks and the U.S. Department of Justice's press notes. We define 5 types of coarse crime entity and a total of 22 types of fine-grained entity. We address the quality of the case-study and the annotated data with experiments on Zero and Few-Shot settings with State-of-the-Art NER models as well as generalist and commonly used Large Language Models.

연구 동기 및 목표

DOJ 및 GTD 소스의 현실적인 도메인 콘텐츠로 일반적인 범죄 관련 NER 데이터세트를 생성한다.
두 수준의 엔티티 계층 구조를 정의한다(거친: 5종; 세분화: 22종) 및 주석 지침을 제공한다.
최신 모델과 대형 언어 모델을 사용하여 CrimeNERdb에 대한 제로- 및 소수 샷 NER 성능을 벤치마크한다.

제안 방법

노이즈 제거 후 1.5k+ 문서로 DOJ 보도 노트와 GTD 테러리스트 보고서에서 CrimeNERdb를 구성했다.
거친(Crime, Actor, Agent, Agency, Logistic) 및 22개의 세부 유형으로 2단계 엔티티 체계를 정의했다.
중첩 엔터티를 허용하는 Doccano를 사용하여 중첩/중첩 가능 NER 라벨로 토큰에 주석을 달았다.
여러 모델(NUNER 및 일반 목적 LLM: GPT-4o-Mini, GPT-4.1-Mini, Gemini-2.5-Flash)과 Few-Shot용 CONTaiNER를 사용하여 Zero- 및 Few-shot NER을 평가했다.
세부 세트의 평가에서는 제로샷에서 LLM 중 최고 성능으로 GPT-4.1-Mini를 사용했고, 1/5/10-shot 실험에서는 GPT-4o-Mini를 사용했다; Few-Shot에 대해 CONTaiNER와 비교했다.

실험 결과

연구 질문

RQ1CrimeNERdb가 사이버보안을 넘어 일반 범죄 관련 NER에 대해 고품질의 수작업 주석 데이터를 제공할 수 있는가?
RQ2제로샷 및 소수샷 NER 모델(대형 언어 모델 포함)은 거친 및 세분된 범죄 엔터티 유형에서 어떤 성능을 보이는가?
RQ3이 도메인에서 특수화된 NER 모델과 일반 목적 LLM 간의 상대적 성능 차이는 무엇인가?
RQ4주석 데이터가 벤치마킹 및 향후 다중 모달/다중언어 확장을 위해 적합한가?

주요 결과

CrimeNERdb는 1,568개의 문서를 포함하고, 6,013 Crime 토큰, 2,634 Actor 토큰, 2,932 Agent 토큰, 2,955 Agency 토큰, 4,009 Logistic 토큰을 다수의(coarse 유형별로 876–927문서)로 분포시킨다.
제로샷 결과에서 GPT-4.1-Mini가 보고된 LLM 중 가장 높은 F1을 거친 거친 엔티티에서 달성했고(F1 최대 28.32 등), NUNER는 매우 제한된 학습 유형으로도 경쟁력 있는 점수를 달성했다.
세분화 제로샷 결과에서 Logistic이 가장 정밀한 레이블 유형으로 나타났고, 범죄 관련 세부 유형은 일반적으로 라벨링이 더 어렵다.
Few-shot에서 CONTaiNER와 GPT-4o-Mini가 1-shot 및 5-shot 설정에서 종종 다른 모델을 앞서며, 10-shot에서는 일부 구성에서 CONTaiNER가 GPT-4o-Mini를 능가한다. 또한 GPT-4o-Mini는 여러 세분 세트에서 강력한 성능을 보인다.
전반적으로 데이터세트 품질은 기존 벤치마크 및 LLM과의 경쟁적 제로샷/소수샷 벤치마크로 검증된다.
본 연구는 CrimeNERdb가 범죄 도메인 NER 연구의 자원으로서의 타당성과 향후 다중 모달/다중언어 확장의 벤치마이스로서의 가능성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.