[논문 리뷰] P-ICL: Point In-Context Learning for Named Entity Recognition with Large Language Models
P-ICL은 프롬프트에 각 유형별 포인트 엔티티를 주입하여 엔터티 유형 이해도와 분류를 향상시킴으로써 표준 ICL보다 NER를 향상시킵니다. 포인트 엔티티는 인코더 표현에 대한 K-Means 클러스터링을 통해 선택됩니다.
In recent years, the rise of large language models (LLMs) has made it possible to directly achieve named entity recognition (NER) without any demonstration samples or only using a few samples through in-context learning (ICL). However, standard ICL only helps LLMs understand task instructions, format and input-label mapping, but neglects the particularity of the NER task itself. In this paper, we propose a new prompting framework P-ICL to better achieve NER with LLMs, in which some point entities are leveraged as the auxiliary information to recognize each entity type. With such significant information, the LLM can achieve entity classification more precisely. To obtain optimal point entities for prompting LLMs, we also proposed a point entity selection method based on K-Means clustering. Our extensive experiments on some representative NER benchmarks verify the effectiveness of our proposed strategies in P-ICL and point entity selection.
연구 동기 및 목표
- 표준 ICL이 NER에 대해 명시적 엔티티-타입 및 엔티티-분류 정보를 결여하는 한계를 강조한다.
- NER 성능을 개선하기 위해 엔터티 유형별 포인트 엔티티를 주입하는 P-ICL을 제안한다.
- 유형별 대표 포인트 엔티티를 선택하기 위한 K-Means 기반 방법을 개발한다.
- 다양한 NER 벤치마크와 LLM에서 P-ICL을 실증적으로 검증한다.
제안 방법
- 프롬프트에 엔터티 유형별로 포인트 엔티티를 예시로 도입하여 엔터티-유형 의미를 전달한다.
- 각 유형(PER, ORG, LOC, MISC)에 대해 포인트 엔티티를 나열하는 정형 프롬 prompting 방식을 정의한다.
- BERT 유사 또는 검색 기반 인코더를 사용해 엔터티 표현을 얻고 K-Means로 중심점을 식별한다.
- 중심 벡터와 엔터티 표현 간의 유사도를 최대화하여 중심점을 실제 포인트 엔터티와 매핑한다.
- P-ICL 변형들(무작위 포인트 엔티티 vs. K-Means 선정 포인트 엔터티)을 표준 ICL과 여러 LLM 및 데이터 세트에서 비교한다.
- 제로샷 및 파샷 설정을 통해 포인트 엔터티 수와 중심점 수가 성능에 미치는 영향을 분석한다.

실험 결과
연구 질문
- RQ1프롬프트의 포인트 엔터티가 표준 ICL을 넘어 LLM의 NER 정확도를 향상시키는가?
- RQ2K-Means 기반 포인트 엔터티 선택이 무작위 선택보다 더 나은 성능을 내는가?
- RQ3유형별 포인트 엔터티 수와 시연 수가 데이터 세트와 모델 전반의 NER 성능에 어떤 영향을 미치는가?
- RQ4포인트 엔터티 표현에 사용되는 서로 다른 인코더가 최종 결과에 어떤 영향을 미치는가?
주요 결과
| 방법 | CoNLL2003 | WNUT2017 | ACE2004 | ACE2005 | Avg. |
|---|---|---|---|---|---|
| Vanilla | 37.38 | 6.31 | 19.01 | 17.26 | 19.99 |
| Standard ICL 3-shot | 45.93 | 8.76 | 28.22 | 25.42 | 27.08 |
| Standard ICL 5-shot | 48.10 | 10.11 | 30.54 | 27.90 | 29.16 |
| Standard ICL 10-shot | 51.00 | 12.56 | 32.42 | 30.94 | 31.73 |
| Standard ICL 20-shot | 51.12 | 11.37 | 32.93 | 29.78 | 31.30 |
| P-ICL random 5+3-shot | 46.37 | 10.62 | 31.09 | 28.79 | 29.22 |
| P-ICL random 10+3-shot | 45.85 | 11.00 | 30.74 | 28.91 | 29.13 |
| P-ICL random 5+5-shot | 48.87 | 11.67 | 31.13 | 31.33 | 30.75 |
| P-ICL random 10+5-shot | 48.53 | 12.64 | 33.26 | 31.06 | 31.37 |
| P-ICL random 5+10-shot | 53.09 | 13.49 | 35.92 | 34.57 | 34.27 |
| P-ICL random 10+10-shot | 53.07 | 13.09 | 35.37 | 35.04 | 34.14 |
| P-ICL random 5+20-shot | 56.50 | 14.85 | 37.02 | 36.69 | 36.27 |
| P-ICL random 10+20-shot | 56.67 | 14.26 | 36.01 | 35.22 | 35.54 |
| P-ICL bert 5+3-shot | 50.59 | 12.54 | 32.18 | 31.27 | 31.66 |
| P-ICL bert 10+3-shot | 48.59 | 13.00 | 33.67 | 30.69 | 31.49 |
| P-ICL bert 5+5-shot | 51.81 | 14.55 | 36.08 | 34.03 | 34.12 |
| P-ICL bert 10+5-shot | 50.02 | 13.75 | 37.12 | 33.59 | 33.62 |
| P-ICL bert 5+10-shot | 56.18 | 15.36 | 36.77 | 36.78 | 36.27 |
| P-ICL bert 10+10-shot | 54.42 | 15.06 | 37.82 | 36.14 | 35.86 |
| P-ICL bert 5+20-shot | 59.12 | 16.92 | 39.38 | 38.60 | 38.50 |
| P-ICL bert 10+20-shot | 58.70 | 16.19 | 41.18 | 38.34 | 38.60 |
- P-ICL은 네 가지 NER 벤치마크에서 동일한 시연 수에서 표준 ICL보다 일관되게 우수한 성능을 보인다.
- K-Means 기반 선택(P-ICL bert)이 무작위 포인트 선택(P-ICL random)보다 더 나은 결과를 낳는다.
- 유형별 포인트 엔티티를 늘리는 것은 일반적으로 도움이 되지만 포인트 수가 일정 시점에 도달하면 중복 가능성으로 인해 결과가 변동한다.
- 검색 기반 인코더(BGE-large, mxba i-embed-large)가 포인트 엔티티 표현에 대해 전통적인 BERT-유사 인코더보다 우수하다.
- GPT-3.5 Turbo, LLaMA-2-70B, Mixtral 8x7B에서 효과가 입증된다.
- 더 대표적인 포인트 엔티티를 사용하면 많은 시연 없이도 성능을 유지하면서 시연 수를 줄일 수 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.