Skip to main content
QUICK REVIEW

[논문 리뷰] Transfer Learning for Named-Entity Recognition with Neural Networks

Ji Young Lee, Franck Dernoncourt|arXiv (Cornell University)|2017. 05. 17.
Machine Learning in Healthcare참고 문헌 14인용 수 83
한 줄 요약

이 논문은 대규모 레이블된 의료 데이터셋(MIMIC)에서 학습된 LSTM 기반 NER 모델을 더 작은 비식별화 데이터셋(i2b2 2014/2016)으로 전이시키면 성능이 향상되며, 특히 대상 라벨이 희소할 때 최첨단 성능에 도달한다.

ABSTRACT

Recent approaches based on artificial neural networks (ANNs) have shown promising results for named-entity recognition (NER). In order to achieve high performances, ANNs need to be trained on a large labeled dataset. However, labels might be difficult to obtain for the dataset on which the user wants to perform NER: label scarcity is particularly pronounced for patient note de-identification, which is an instance of NER. In this work, we analyze to what extent transfer learning may address this issue. In particular, we demonstrate that transferring an ANN model trained on a large labeled dataset to another dataset with a limited number of labels improves upon the state-of-the-art results on two different datasets for patient note de-identification.

연구 동기 및 목표

  • 전자 건강 기록에서 비식별화의 필요성과 라벨링 병목을 동기 부여한다.
  • 레이블이 제한된 데이터셋에서 NER 성능이 전이 학습으로 향상되는지 조사한다.
  • 어떤 ANN 파라미터와 계층이 전이에서 가장 큰 영향을 미치는지 파악한다.
  • MIMIC를 소스로 사용하여 두 개의 i2b2 비식별화 데이터셋에서 전이 학습의 효과를 시연한다.

제안 방법

  • 토큰 및 문자 임베딩을 갖춘 여섯 구성 요소의 LSTM 기반 NER 모델을 사용한다.
  • 대규모 소스 데이터셋(MIMIC)에서 학습하고 대상 데이터셋(i2b2 2014/2016)에서 파인튜닝한다.
  • 모든 파라미터를 전이하는 것과 파라미터의 부분집합을 전이하는 것을 비교한다.
  • 토큰 LSTM 층 전에 드롭아웃을 적용하고 개발 세트에서 조기 중지한다.
  • F1-점수를 사용하여 대상 학습만 수행했을 때보다 향상을 평가한다.
  • 구현을 위해 NeuroNER 프레임워크를 확장한다.

실험 결과

연구 질문

  • RQ1큰 레이블이 달린 의료 데이터셋에서의 전이 학습이 작은 대상 PHI 데이터셋의 NER 성능을 향상시키는가?
  • RQ2대상 데이터셋 크기가 전이 학습 이득에 어떤 영향을 미치는가?
  • RQ3어떤 ANN 계층이 비식별화를 위한 NER의 성공적인 전이에 가장 큰 기여를 하는가?
  • RQ4하위 계층만 전이하는 것이 전체 네트워크를 전이하는 것만큼 효과적인가?
  • RQ5전이 학습에 상위 계층을 포함시키면 대상 데이터의 성능에 해를 끼치기도 하는가?

주요 결과

  • 전이 학습은 대상 전용 학습보다 F1-점수를 일관되게 향상시키며, 대상 데이터가 희소할수록 더 큰 이득을 얻는다.
  • i2b2 2014에서 대상 학습 세트의 16%를 사용할 때 전이 학습은 전이 없이 34%의 성능과 비슷한 수준이다.
  • i2b2 2014의 경우 가장 큰 이득은 약 3.1pp(90.12에서 93.21로)로 나타났으며, 학습 데이터가 5%일 때였다.
  • 전체 대상 학습 세트를 사용할 때도 전이 학습은 미미한 이득만을 주는 경우가 있으며(예: 97.97 대 97.80).
  • 하위 계층(토큰 LSTM 또는 문자 LSTM까지)만 전이하는 것이 종종 상당한 이득을 주며, 이는 하위 계층이 비식별화에 일반적인 특징을 포착한다는 점을 시사한다.
  • 상위 계층을 전이 학습에 추가하는 것은 성능에 해를 주지 않으며 대상 데이터세트에의 적응을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.