[논문 리뷰] Terminologies augmented recurrent neural network model for clinical named entity recognition
논문은 용어 기반의 Baseline, biGRU-CRF 모델, 그리고 용어 예측을 biGRU-CRF의 특징으로 사용하는 하이브리드 시스템을 평가하여 영어(i2b2-2009) 및 프랑스어(APcNER)에서 임상 NER에 대해 하이브리드 시스템이 코퍼스 전반에서 가장 정확 일치(F1) 점수를 달성함을 보인다.
We aimed to enhance the performance of a supervised model for clinical named-entity recognition (NER) using medical terminologies. In order to evaluate our system in French, we built a corpus for 5 types of clinical entities. We used a terminology-based system as baseline, built upon UMLS and SNOMED. Then, we evaluated a biGRU-CRF, and an hybrid system using the prediction of the terminology-based system as feature for the biGRU-CRF. In English, we evaluated the NER systems on the i2b2-2009 Medication Challenge for Drug name recognition, which contained 8,573 entities for 268 documents. In French, we built APcNER, a corpus of 147 documents annotated for 5 entities (drug name, sign or symptom, disease or disorder, diagnostic procedure or lab test and therapeutic procedure). We evaluated each NER systems using exact and partial match definition of F-measure for NER. The APcNER contains 4,837 entities which took 28 hours to annotate, the inter-annotator agreement was acceptable for Drug name in exact match (85%) and acceptable for other entity types in non-exact match (>70%). For drug name recognition on both i2b2-2009 and APcNER, the biGRU-CRF performed better that the terminology-based system, with an exact-match F-measure of 91.1% versus 73% and 81.9% versus 75% respectively. Moreover, the hybrid system outperformed the biGRU-CRF, with an exact-match F-measure of 92.2% versus 91.1% (i2b2-2009) and 88.4% versus 81.9% (APcNER). On APcNER corpus, the micro-average F-measure of the hybrid system on the 5 entities was 69.5% in exact match, and 84.1% in non-exact match. APcNER is a French corpus for clinical-NER of five type of entities which covers a large variety of document types. Extending supervised model with terminology allowed for an easy performance gain, especially in low regimes of entities, and established near state of the art results on the i2b2-2009 corpus.
연구 동기 및 목표
- UMLS와 SNOMED의 의학 용어를 활용하여 감독 학습 임상 NER 성능을 향상시킨다.
- 영어(i2b2-2009 Medication Challenge)와 프랑스어 APcNER 코퍼스에서 NER 시스템을 평가한다.
- 용어 기반 Baseline, biGRU-CRF, 및 용어 파생 특징을 사용하는 하이브리드 접근법을 비교한다.
제안 방법
- UMLS와 SNOMED를 사용하여 용어 기반 Baseline을 구축한다.
- 임상 데이터에서 NER용 biGRU-CRF를 학습한다.
- 용어 기반 시스템의 예측을 biGRU-CRF의 특징으로 사용하는 하이브리드 시스템을 개발한다.
- 정확 매칭 및 부분 매칭(비정확) F-측정을 사용하여 평가한다.
- APcNER 프랑스어 코퍼스를 다섯 가지 엔티티 유형(약물명, 징후/증상, 질병/장애, 진단 절차 또는 검사, 치료 절차)으로 주석화한다.
실험 결과
연구 질문
- RQ1용어 기반 Baseline이 신경망 모델과 비교하여 임상 NER에서 어떻게 성능을 보이는가?
- RQ2용어 기반 예측을 특징으로 포함시키는 것이 신경망 NER 성능을 향상시키는가?
- RQ3정확 매칭 및 비정확 매칭에서 영어 i2b2-2009와 프랑스어 APcNER 데이터셋의 NER 성능은 어느 수준인가?
주요 결과
- BiGRU-CRF는 두 코퍼스에서 약물명 인식에 대해 용어 기반 Baseline보다 우수하다(i2b2-2009: 91.1% vs 73%; APcNER: 81.9% vs 75%).
- 하이브리드 시스템은 biGRU-CRF Baseline을 능가한다(i2b2-2009: 92.2% vs 91.1%; APcNER: 88.4% vs 81.9%).
- APcNER에서 하이브리드 시스템은 다섯 엔티티에 대해 micro-average exact-match F-measure 69.5% 및 non-exact F-measure 84.1%를 달성한다.
- APcNER 코퍼스는 147 문서에 걸쳐 4,837 엔티티가 주석된 프랑스어 임상-NER 데이터세트이며, 주석자 간 일치도가 양호하다(Drug name의 정확 매칭 85%, 다른 엔티티는 비정확 매칭에서 >70%).
- 감독 학습 모델에 용어를 확장하면 성능이 향상되어 i2b2-2009에서 최신 수준에 근접한 결과를 얻는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.