QUICK REVIEW

[논문 리뷰] CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark

Ningyu Zhang, Mosha Chen|arXiv (Cornell University)|2021. 06. 15.

Topic Modeling인용 수 24

한 줄 요약

CBLUE는 8개 과제로 중국어 생물의학 언어 이해 벤치마크를 처음으로 도입하고, 11개의 중국어 사전학습 모델과 인간을 평가하여 모델과 인간 성능 간 큰 격차를 강조한다.

ABSTRACT

Artificial Intelligence (AI), along with the recent progress in biomedical language understanding, is gradually changing medical practice. With the development of biomedical language understanding benchmarks, AI applications are widely used in the medical field. However, most benchmarks are limited to English, which makes it challenging to replicate many of the successes in English for other languages. To facilitate research in this direction, we collect real-world biomedical data and present the first Chinese Biomedical Language Understanding Evaluation (CBLUE) benchmark: a collection of natural language understanding tasks including named entity recognition, information extraction, clinical diagnosis normalization, single-sentence/sentence-pair classification, and an associated online platform for model evaluation, comparison, and analysis. To establish evaluation on these tasks, we report empirical results with the current 11 pre-trained Chinese models, and experimental results show that state-of-the-art neural models perform by far worse than the human ceiling. Our benchmark is released at \url{https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414&lang=en-us}.

연구 동기 및 목표

다양한 생물의학 과제를 포괄하는 중국어 생물의학 언어 이해 평가(CBLUE) 벤치마크를 도입한다.
업계 분포를 반영하기 위해 여러 소스에서 실제 세계의 익명화된 중국어 생물의학 데이터를 수집한다.
CBLUE 과제에서 모델 성능을 평가, 비교 및 분석하기 위한 온라인 플랫폼과 베이스라인을 제공한다.
중국어 생물의학 NLP의 언어학적 및 도메인 특이적 도전을 분석하고 향후 모델 개발을 돕는다.

제안 방법

토큰 수준, 시퀀스 수준, 문장 페어 분류를 포함하는 여덟 개의 생물의학 NLU 과제를 구성했다.
클리니컬 트라이얼, EHR, 의학 포럼, 교과서, 검색 엔진 로그에서 프라이버시를 보장하는 익명화를 통해 데이터를 수집했다.
도메인 전문가에 의해 주석을 달고 품질 관리, 주석자 간 일치도 평가를 포함했다.
커뮤니티 참여를 촉진하기 위해 리더보드가 있는 오픈 플랫폼과 60시간의 무료 GPU를 공개했다.
일반적인 파인튜닝으로 11개의 공개 중국어 사전학습 모델을 사용한 재현 가능한 베이스라인을 제공했다.
Baselines와 결과를 재현하기 위한 PyTorch 코드가 제공되었다.

실험 결과

연구 질문

RQ1다양한 중국어 생물의학 과제에서 현재 중국어 사전학습 모델의 성능은 어느 정도인가?
RQ2데이터 소스와 분포(롱테일 및 비 iid 전이 시나리오 포함)가 중국어 생물의학 NLP에서 모델 일반화에 어떤 영향을 미치는가?
RQ3CBLUE 과제 전반에서 모델 성능이 인간 성능에 얼마나 근접하며 가장 큰 격차는 어디에 있는가?
RQ4중국어 생물의학 과제에서 모델이 직면하는 주요 오류 유형과 언어적 도전은 무엇인가?

주요 결과

모델	CMeEE	CMeIE	CDN	CTC	STS	QIC	QTR	QQR	평균
BERT-base	69.1	-	-	-	-	-	-	-	69.1
BERT-wwm-ext-base	69.4	-	-	-	-	-	-	-	69.4
RoBERTa-large	69.6	-	-	-	-	-	-	-	69.6
RoBERTa-wwm-ext-base	69.3	-	-	-	-	-	-	-	69.3
RoBERTa-wwm-ext-large	70.0	-	-	-	-	-	-	-	70.0
ALBERT-tiny	61.1	-	-	-	-	-	-	-	61.1
ALBERT-xxlarge	66.1	-	-	-	-	-	-	-	66.1
ZEN	68.4	-	-	-	-	-	-	-	68.4
MacBERT-base	69.0	-	-	-	-	-	-	-	69.0
MacBERT-large	69.6	-	-	-	-	-	-	-	69.6
PCL-MedBERT	67.9	-	-	-	-	-	-	-	67.9
Human	77.1	-	-	-	-	-	-	-	77.1

최첨단 중국어 모델은 CBLUE 과제에서 인간 성능에 훨씬 못 미친다(인간 평균 77.1 vs 모델 평균 약 66-70 across tasks).
더 큰 모델이 일반적으로 더 잘 수행하지만 이득은 과제에 따라 다르며 모든 과제에 보편적으로 적용되지는 않는다.
전체 단어 마스킹과 특정 의학 사전학습은 모든 과제에서 고르게 성능을 높이지 않으며 중국어 생물의학 NLP의 과제별 도전이 있음을 시사한다.
전이 학습 시나리오(비 iid/ CHIP-STS 스타일)는 학습 분포와 테스트 분포 간에 현저한 일반화 격차를 보여준다.
사례 연구는 모호성, 도메인 지식 필요성, 엔터티 중첩, 구어체, 주석 문제로 인한 오류를 보여주며 중국어 생물의학 텍스트의 언어적 및 도메인 특유의 복잡성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.