QUICK REVIEW

[논문 리뷰] A pre-training technique to localize medical BERT and enhance BioBERT.

Shoya Wada, Toshihiro Takeda|arXiv (Cornell University)|2020. 05. 14.

Biomedical Text Mining and Ontologies인용 수 9

한 줄 요약

이 논문은 영어 및 일본어의 소규모 의료 코퍼스에서의 피지테이닝을 통해 저자원 생물의학적 언어를 위한 BioBERT를 향상시키는 사전학습 기법을 제안한다. 제한된 고품질 의료 텍스트를 활용함으로써, 이 방법은 ouBioBERT를 생성하였으며, 10개 데이터셋에서 BLUE 벤치마크에서 BioBERT보다 1.0점 향상된 성능을 기록하여 생물의학적 언어 이해 능력이 향상되었음을 입증한다.

ABSTRACT

Bidirectional Encoder Representations from Transformers (BERT) models for biomedical specialties such as BioBERT and clinicalBERT have significantly improved in biomedical text-mining tasks and enabled us to extract valuable information from biomedical literature. However, we benefitted only in English because of the significant scarcity of high-quality medical documents, such as PubMed, in each language. Therefore, we propose a method that realizes a high-performance BERT model by using a small corpus. We introduce the method to train a BERT model on a small medical corpus both in English and Japanese, respectively, and then we evaluate each of them in terms of the biomedical language understanding evaluation (BLUE) benchmark and the medical-document-classification task in Japanese, respectively. After confirming their satisfactory performances, we apply our method to develop a model that outperforms the pre-existing models. Bidirectional Encoder Representations from Transformers for Biomedical Text Mining by Osaka University (ouBioBERT) achieves the best scores on 7 of the 10 datasets in terms of the BLUE benchmark. The total score is 1.0 points above that of BioBERT.

연구 동기 및 목표

BERT 모델 사전학습을 위한 고품질 다국어 생물의학 텍스트의 부족 문제를 해결하기 위해.
일본어와 같이 저자원 언어에서 사용 가능한 소규모 의료 코퍼스만을 사용하여 고성능 BERT 모델을 개발하기 위해.
BERT 사전학습 기법을 적응시켜 저자원 환경에서 생물의학적 언어 이해 능력을 향상시키기 위해.
기존 모델들인 BioBERT 및 clinicalBERT를 벤치마크 평가에서 능가하기 위해.

제안 방법

영어 및 일본어의 소규모이지만 고품질의 생물의학 코퍼스에서 BERT 모델을 사전학습시키기 위해.
도메인 특화 텍스트를 사용하여 표준 BERT 아키텍처를 생물의학 용어와 맥락에 집중하도록 적응시키기 위해.
도메인 특화 표현을 향상시키기 위해 생물의학적 언어 이해 작업에서 모델을 피지테이닝하기 위해.
성능을 검증하기 위해 BLUE 벤치마크와 일본어 의료 문서 분류 작업에서 모델을 평가하기 위해.
의료 텍스트의 맥락적 종속성을 포착하기 위해 이중 방향 주의 메커니즘을 사용하기 위해.
제한된 의료 코퍼스에서 마스크 언어 모델링 및 다음 문장 예측을 통해 모델을 최적화하기 위해.

실험 결과

연구 질문

RQ1저자원 언어에서 소규모 생물의학 코퍼스에서 사전학습된 BERT 모델이 높은 성능을 달성할 수 있는가?
RQ2제한된 의료 텍스트에서 사전학습된 모델의 성능은 기존의 BioBERT 및 clinicalBERT 모델과 비교해 어떻게 되는가?
RQ3도메인 특화 사전학습이 저자원 환경에서 생물의학적 언어 이해 능력을 얼마나 향상시킬 수 있는가?
RQ4소규모 고품질 의료 코퍼스만을 사용할 경우, 후속 작업 성능에 어떤 영향을 미치는가?

주요 결과

ouBioBERT는 BLUE 벤치마크의 10개 데이터셋 중 7개에서 최고 성능을 기록하며 BioBERT를 능가한다.
ouBioBERT의 총점은 BLUE 벤치마크에서 BioBERT보다 1.0점 높다.
모델은 일본어 의료 문서 분류 작업에서 강력한 성능을 보이며, 저자원 환경에서의 효과성을 확인한다.
소규모 고품질 의료 코퍼스에서 사전학습하면, 더 큰 일반 도메인 코퍼스에서 학습된 모델들과 비교해도 경쟁력 있는 결과를 낸다.
제한된 학습 데이터로도 생물의학적 언어 이해 능력 향상에 성공적으로 기여한다.
이 방법은 영어 및 일본어 모두에서 효과적이며, 생물의학적 NLP에서의 다국어 간 전이 가능성도 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.