[논문 리뷰] Do We Still Need Clinical Language Models?
본 논문은 12개의 언어 모델을 3개의 임상 작업에 걸쳐 비교하고, 작고 도메인 내에서 학습된 임상 모델이 대형 일반 모델의 인-컨텍스트 학습(in-context learning)보다 우수하다는 점을 발견했으며, 임상 텍스트에 대한 도메인 특화 사전학습의 가치가 강조된다.
Although recent advances in scaling large language models (LLMs) have resulted in improvements on many NLP tasks, it remains unclear whether these models trained primarily with general web text are the right tool in highly specialized, safety critical domains such as clinical text. Recent results have suggested that LLMs encode a surprising amount of medical knowledge. This raises an important question regarding the utility of smaller domain-specific language models. With the success of general-domain LLMs, is there still a need for specialized clinical models? To investigate this question, we conduct an extensive empirical analysis of 12 language models, ranging from 220M to 175B parameters, measuring their performance on 3 different clinical tasks that test their ability to parse and reason over electronic health records. As part of our experiments, we train T5-Base and T5-Large models from scratch on clinical notes from MIMIC III and IV to directly investigate the efficiency of clinical tokens. We show that relatively small specialized clinical models substantially outperform all in-context learning approaches, even when finetuned on limited annotated data. Further, we find that pretraining on clinical tokens allows for smaller, more parameter-efficient models that either match or outperform much larger language models trained on general text. We release the code and the models used under the PhysioNet Credentialed Health Data license and data use agreement.
연구 동기 및 목표
- 특화된 임상 언어 모델이 도메인 독립적 LLM의 발전에도 여전히 필요한지 평가한다.
- EHR 노트를 사용하여 220M–175B 파라미터 규모의 다양한 모델을 임상 관련 작업에서 평가한다.
- 모델 성능과 효율성을 위해 임상 데이터 사전학습과 일반 도메인 데이터 사전학습의 효과를 조사한다.
- 처음부터 임상 사전학습을 수행하는 것이 비용 효율적인지 여부와 도메인 내 토큰 사용이 성능에 미치는 영향을 분석한다.
제안 방법
- MIMIC 노트에서 파생된 세 가지 임상 작업에 대해 12개의 언어 모델을 학습하고 평가한다.
- MIMIC III/IV에서 사전학습된 세 가지 Clinical-T5 모델(처음부터 학습 및 체크포인트 초기화)을 개발한다.
- 특수화된 임상 모델과 일반 도메인 모델 및 대형 LLM을 미세조정과 인-컨텍스트 학습으로 비교한다.
- 작업별 지표를 사용한다: MedNLI 정확도, RadQA 토큰 단위 F1 및 정확도 매치, CLIP 마이크로/매크로 F1.
- 다양한 모델 크기에 대해 사전 학습-초기화 대-미세조정/추론의 FLOPs 기반 비용 분석을 제공한다.

실험 결과
연구 질문
- RQ1작은 규모의 특수 임상 모델이 임상 노트 작업에서 대형 일반 도메인 LLM의 인-컨텍스트 학습보다 우수한가?
- RQ2임상 데이터에 대한 사전학습이 더 큰 일반 도메인 모델과 비교하여 FLOPs 측면에서 더 효율적인 모델을 만들 수 있는가?
- RQ3처음부터 임상 사전학습과 도메인 적응 사전학습 간의 성능 및 비용의Trade-off는 무엇인가?
- RQ4도메인 내 토큰 사용량과 일반 도메인 사전학습 간의 성능 차이는 작업별로 어떻게 나타나는가?
- RQ5안전-criticalclinical NLP에서 인-context 학습이 미세조정된 임상 모델의 대체재로 실현 가능한가?
주요 결과
- 특수화된 임상 모델은 345M 파라미터만으로도 다수의 작업에서 인-컨텍스트 학습 접근법을 substantially 능가한다.
- Clinical-T5-Large 및 Clinical-T5-Base는 일반 도메인 대응 모델 대비 성능 향상을 보이며, 처음부터의 사전학습이 가장 큰 개선을 가져왔다.
- BioClinRoBERTa 및 GatorTron과 같은 임상 모델은 T5-XL이나 GPT-3 같은 대형 일반 모델보다 종종 훨씬 적은 파라미터로도 최고 수준의 작업 성능을 달성한다.
- 임상 데이터에 대한 사전학습은 작은 모델이 더 큰 일반 도메인 모델에 필적하거나 이를 넘게 만들 수 있게 하며, 데이터 도메인이 순수한 크기보다 중요함을 강조한다.
- 적은 샷 환경에서 특수화된 임상 모델은 일반적으로 ICL 기반 대형 LLM보다 우수하지만 작업 및 데이터 가용성에 따라 결과가 달라진다.
- 본 연구는 분기점 비용 분석을 제공하며, 많은 시나리오에서 처음부터 더 작은 임상 모델을 학습하는 것이 추론을 위해 더 큰 일반 도메인 모델을 지속적으로 사용하는 것보다 비용 효율적일 수 있음을 제시한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.