Skip to main content
QUICK REVIEW

[논문 리뷰] A Comparison of Word Embeddings for the Biomedical Natural Language Processing

Yanshan Wang, Sijia Liu|arXiv (Cornell University)|2018. 02. 01.
Text Readability and Simplification인용 수 28
한 줄 요약

이 연구는 전자건강기록(EHR), 생물의학 문헌(MedLit), 위키백과, 뉴스의 네 가지 다른 코퍼스에서 훈련된 단어 임베딩을 생물의학 자연어처리 분야에서 평가한다. 임베딩의 내재적 평가와 외재적 평가를 임상 정보 추출, 생물의학 검색, 관계 추출 작업 전반에 걸쳐 수행한 결과, EHR 및 MedLit에서 훈련된 임베딩이 일반 도메인 임베딩(GloVe 및 Google News)보다 임상 맥락에서 의학적 의미를 더 잘 포착하며 성능이 뛰어나지만, 모든 작업에서 한 가지 임베딩이 항상 우월한 것은 아님을 확인하였다.

ABSTRACT

Word embeddings have been widely used in biomedical Natural Language Processing (NLP) applications as they provide vector representations of words capturing the semantic properties of words and the linguistic relationship between words. Many biomedical applications use different textual resources (e.g., Wikipedia and biomedical articles) to train word embeddings and apply these word embeddings to downstream biomedical applications. However, there has been little work on evaluating the word embeddings trained from these resources.In this study, we provide an empirical evaluation of word embeddings trained from four different resources, namely clinical notes, biomedical publications, Wikipedia, and news. We performed the evaluation qualitatively and quantitatively. For the qualitative evaluation, we manually inspected five most similar medical words to a given set of target medical words, and then analyzed word embeddings through the visualization of those word embeddings. For the quantitative evaluation, we conducted both intrinsic and extrinsic evaluation. Based on the evaluation results, we can draw the following conclusions. First, the word embeddings trained on clinical notes and biomedical publications can capture the semantics of medical terms better, and find more relevant similar medical terms, and are closer to human experts' judgments, compared to these trained on Wikipedia and news. Second, there does not exist a consistent global ranking of word embedding quality for downstream biomedical NLP applications. However, adding word embeddings as extra features will improve results on most downstream tasks. Finally, the word embeddings trained on biomedical domain corpora do not necessarily have better performance than those trained on other general domain corpora for any downstream biomedical NLP tasks.

연구 동기 및 목표

  • 다양한 코퍼스—EHR, 생물의학 문헌, 위키백과, 뉴스에서 훈련된 단어 임베딩의 생물의학 NLP 응용 프로그램에서의 성능을 평가하는 것.
  • 생물의학 전용 코퍼스에서 훈련된 임베딩가 일반 도메인 소스(예: 위키백과, 뉴스)에서 유래한 임베딩보다 뛰어나다는지 확인하는 것.
  • 정보 추출, 정보 검색, 관계 추출과 같은 생물의학 NLP 작업의 후속 단계에서 단어 임베딩이 특징으로서 미치는 영향을 평가하는 것.
  • 지역 병원에서의 EHR 데이터가 공개적으로 이용 가능한 사전 훈련된 임베딩보다 임상 NLP 작업에서 더 나은 임베딩을 제공하는지 여부를 조사하는 것.
  • 단어 임베딩의 일반화 가능성과 다양한 생물의학 NLP 응용 프로그램 및 기관 간 이식 가능성에 대해 검토하는 것.

제안 방법

  • 스킵그램과 음성 샘플링을 사용하여 메이오 클리닉의 비정형 EHR 데이터와 PubMed Central(MedLit) 기사에서 단어 임베딩을 훈련함.
  • 기본 비교로 GloVe 및 Google News에서 제공하는 공개 사전 훈련된 임베딩을 사용함.
  • 수동으로 선택된 의학 용어(질환, 증상, 약물)의 가장 유사한 다섯 단어를 점검하고 377개의 의학 용어를 2차원 공간에 시각화하여 정성적 평가를 수행함.
  • 의학 용어 간 의미 유사도를 측정하기 위해 네 가지 벤치마크 데이터셋(Pedersen, Hliaoutakis, MayoSRS, UMNSRS)을 사용하여 내재적 평가를 수행함.
  • 세 가지 후속 작업에서 외재적 평가를 수행함: 임상 정보 추출(BioCreative V IE 챌린지), 생물의학 정보 검색(BioASQ 챌린지), 관계 추출(BioCreative V RE 챌린지).
  • 다양한 코퍼스에서 유래한 임베딩의 성능을 비교하기 위해 작업 전반에 걸쳐 F1 점수를 보고함. 이때 임베딩은 기계 학습 모델의 추가 특징으로 사용됨.

실험 결과

연구 질문

  • RQ1임상 노트(EHR)와 생물의학 문헌(MedLit)에서 훈련된 단어 임베딩가 위키백과 및 뉴스와 같은 일반 도메인 코퍼스에서 유래한 임베딩보다 의학적 의미를 더 정확히 포착하는가?
  • RQ2다양한 후속 생물의학 NLP 작업에서 단어 임베딩의 순위가 일관된가, 아니면 작업에 따라 성능이 달라지는가?
  • RQ3비의학적 일반 도메인 코퍼스(예: 뉴스, 위키백과)에서 훈련된 임베딩가 생물의학 전용 코퍼스에서 훈련된 임베딩보다 성능이 유사하거나 더 나은가?
  • RQ4기관 특화의 EHR 임베딩가 공개 사전 훈련된 임베딩보다 현지 임상 NLP 작업에서 성능 향상에 얼마나 기여하는가?
  • RQ5단어 임베딩을 추가 특징으로 추가하는 것이 다양한 생물의학 NLP 응용 프로그램에서 일관되게 성능 향상에 기여하는가?

주요 결과

  • EHR에서 훈련된 단어 임베딩가 임상 정보 추출 작업에서 F1 점수 0.900을 기록하여 모든 다른 임베딩보다 뛰어난 성능을 보였음.
  • MedLit에서 훈련된 임베딩도 의학적 의미를 잘 포착하는 데 강력한 성능을 보였으며, IE 작업에서 F1 점수 0.889, RE 작업에서 0.788을 기록함.
  • 내재적 평가에서 EHR에서 훈련된 임베딩가 네 가지 데이터셋(Pedersen, Hliaoutakis, MayoSRS, UMNSRS) 전반에 걸쳐 인간 전문가 평가와 가장 유사한 의미 유사도 점수를 기록함.
  • 생물의학 정보 검색 작업에서는 어떤 단어 임베딩도 베이스라인 성능을 향상시키지 못했으며, 이는 특정 설정에서 단어 임베딩의 이점이 제한적임을 시사함.
  • Google News 임베딩가 관계 추출 작업에서 F1 점수 0.790을 기록하여 EHR 및 MedLit 임베딩를 모두 앞서며 최고의 성능을 보였음.
  • 코퍼스 도메인의 차이에도 불구하고 일반 도메인 소스(GloVe 및 Google News)에서 유래한 임베딩가 일부 작업에서 생물의학 코퍼스에서 훈련된 임베딩보다 유사하거나 더 나은 성능을 보였으며, 이는 도메인 특화 임베딩가 항상 우월하지 않음을 시사함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.