QUICK REVIEW

[논문 리뷰] Transfer Learning in Biomedical Natural Language Processing: An Evaluation of BERT and ELMo on Ten Benchmarking Datasets

Yifan Peng, Shankai Yan|arXiv (Cornell University)|2019. 06. 13.

Topic Modeling참고 문헌 39인용 수 70

한 줄 요약

BLUE 벤치마크는 다섯 가지 작업에 걸쳐 열 개의 생물의학/임상 데이터 세트를 평가하고, PubMed 초록과 MIMIC-III 임상 노트를 사전 학습한 BERT 모델이 전반적으로 가장 강력한 성능을 보이며, 생의학 분야에서 교차 장르 사전 학습의 가치를 강조합니다.

ABSTRACT

Inspired by the success of the General Language Understanding Evaluation benchmark, we introduce the Biomedical Language Understanding Evaluation (BLUE) benchmark to facilitate research in the development of pre-training language representations in the biomedicine domain. The benchmark consists of five tasks with ten datasets that cover both biomedical and clinical texts with different dataset sizes and difficulties. We also evaluate several baselines based on BERT and ELMo and find that the BERT model pre-trained on PubMed abstracts and MIMIC-III clinical notes achieves the best results. We make the datasets, pre-trained models, and codes publicly available at https://github.com/ncbi-nlp/BLUE_Benchmark.

연구 동기 및 목표

Biomedical Language Understanding Evaluation (BLUE) 벤치마크를 생의학 및 임상 도메인의 다섯 가지 작업으로 소개한다.
BERT와 ELMo를 기반으로 한 강화된 생의학 언어 표현을 확립하기 위해 베이스라인 모델을 평가한다.
사전 학습이 텍스트 장르 간 전이 학습에 미치는 영향을 보여준다.

제안 방법

BLUE를 구성: 생의학 문헌과 임상 노트를 포괄하는 다섯 가지 작업과 열 개의 말뭉치.
BERT를 PubMed 초록과 MIMIC-III 임상 노트를 대상으로 사전 학습시키고(PubMed+MIMIC-III 조합 포함).
각 BLUE 작업에 대해 작업별 입력 형식(예: 유사성에 대한 문장 쌍, NER를 위한 BIO 태깅)에 맞춰 BERT 모델을 미세조정한다.
PubMed 초록으로 사전 학습된 ELMo 기반 베이스라인과 비교한다.
공정한 벤치마킹을 위해 공개 데이터셋, 사전 학습 모델, 코드 등을 제공한다.

실험 결과

연구 질문

RQ1BERT- 및 ELMO 기반 표현이 다양한 생물의학 및 임상 NLP 작업에서 어떻게 성능을 발휘하는가?
RQ2다중 텍스트 장르(생의학과 임상)에서의 사전 학습이 단일 장르 사전 학습과 비교해 성능을 향상시키는가?
RQ3어떤 작업 유형(NER, 관계 추출, 문장 유사도, 문서 분류, 추론)이 생의학에서 맥락화된 언어 모델의 혜택을 가장 많이 받는가?

주요 결과

PubMed 초록과 MIMIC-III에서 사전 학습된 BERT 모델이 BLUE 작업 전반에서 최상의 결과를 달성한다.
PubMed+MIMIC-III 사전 학습을 이용한 BERT는 일반적으로 단일 장르 사전 학습보다 우수한 성능을 보이며, 교차 장르 전이 학습의 이점을 강조한다.
Base 사이즈의 BERT 모델이 여러 작업에서 Large 사이즈 모델보다 성능이 좋게 나타나는 경우가 많으며, 이는 데이터 규모와 문장 길이 요인 때문일 가능성이 있다.
ELMo 베이스라인은 대부분의 작업에서 최상의 BERT 구성보다 뒤처지며, 생의학 분야에서 현대적 맥락화 트랜스포머의 이점을 강조한다.
문장 유사도, 문서 분류 및 일부 NER 작업에서 BERT-Base(P+M) 또는 BERT-Large(P)가 데이터셋 특성(예: 평균 문장 길이)과 연계된 강한 성능 차이를 보인다.
BLUE 벤치마크는 생의학 NLP에서 공정한 비교를 촉진하기 위해 광범위한 코드와 사전 학습 모델을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.