QUICK REVIEW

[논문 리뷰] HuatuoGPT-II, One-stage Training for Medical Adaption of LLMs

Junying Chen, Xidong Wang|arXiv (Cornell University)|2023. 11. 16.

Topic Modeling인용 수 24

한 줄 요약

HuatuoGPT-II는 도메인 데이터를 지시-출력 형식으로 변환하고 중국 의학 LLM을 학습시키는 통합된 1단계 도메인 적응 프로토콜을 도입하여 중국 의학 벤치마크에서 최첨단 성능을 달성합니다.

ABSTRACT

Adapting a language model into a specific domain, a.k.a `domain adaption', is a common practice when specialized knowledge, e.g. medicine, is not encapsulated in a general language model like Llama2. The challenge lies in the heterogeneity of data across the two training stages, as it varies in languages, genres, or formats. To tackle this and simplify the learning protocol, we propose to transform heterogeneous data, from the both pre-training and supervised stages, into a unified, simple input-output pair format. We validate the new protocol in the domains where proprietary LLMs like ChatGPT perform relatively poorly, such as Traditional Chinese Medicine. The developed model, HuatuoGPT-II, has shown state-of-the-art performance in Chinese medicine domain on a number of benchmarks, e.g. medical licensing exams. It even outperforms proprietary models like ChatGPT and GPT-4 in some aspects, especially in Traditional Chinese Medicine. Expert manual evaluations further validate HuatuoGPT-II's advantages over existing LLMs. Notably, HuatuoGPT-II was benchmarked in a fresh Chinese National Medical Licensing Examination where it achieved the best performance, showcasing not only its effectiveness but also its generalization capabilities.

연구 동기 및 목표

의료 LLM을 위한 도메인 적응의 필요성과 학습 파이프라인의 복잡성 감소를 제고한다.
전통적인 이단계의 지속적 사전 학습과 지도 학습 미세 조정을 대체할 통합된 1단계 프로토콜을 제안한다.
전통 중국 의학(TCM) 및 일반 중국 의학 과제에서 강력한 성능을 보이는 중국 의료 LLM을 개발하고 평가한다.
도메인 지식을 효과적으로 주입하기 위한 데이터 통합 및 우선순위 기반 샘플링을 보여준다.

제안 방법

백과사전, 도서, 문학, 웹 소스에 걸친 다양한 도메인 특화 코퍼스를 수집한다(중국어/영어).
LLM을 사용한 문제 생성과 답변 합성을 통해 도메인 데이터를 지시-출력 형식으로 통일하고 SFT 데이터와 정렬한다.
우선순위 샘플링 전략에 따라 통합된 도메인 데이터를 미세조정 데이터와 합병해 1단계 학습을 수행한다.
데이터 인코딩을 고정 길이 시퀀스로 표준화하고 지시 스타일 데이터에 대해 출력 손실만 최적화한다.
개방형 벤치마크와 전문가 평가를 모두 사용해 평가하되, 신규 의학 면허 시험 시나리오를 포함한다.

실험 결과

연구 질문

RQ1의료 LLM에서 한 단계 도메인 적응이 전통적인 두 단계 파이프라인에 비해 어떤 성능 향상을 가져오는가?
RQ2LLM 생성 질문과 답변을 통한 데이터 통합이 이질적인 도메인 데이터를 SFT 데이터와 정렬하는 데 얼마나 효과적인가?
RQ31단계 적응으로 학습된 중국 의료 LLM이 중국 의학 벤치마크와 면허 시험에서 오픈 소스 및 독점 모델을 능가할 수 있는가?

주요 결과

모형	MedQA	MedMCQA	CMB	CMExam	MMLU	CMMLU	C_Eval
HuatuoGPT-II (7B)	25.77	31.20	28.81	31.07	34.91	33.23	36.53
HuatuoGPT-II (13B)	45.68	47.41	63.34	68.98	54.00	61.45	64.00
DISC-MedLLM	28.67	-	32.47	36.62	-	-	-
ChatGPT (API)	52.24	53.60	43.26	46.51	69.96	50.37	48.80
GPT-4 (API)	47.3	48.2	53.5	50.3	53.7	54.2	58.6

HuatuoGPT-II는 MedQA, MedMCQA, CMB, CMExam 등 중국 헬스케어 벤치마크에서 오픈 소스 모델 중 최첨단 성능을 달성하며, 13B 변형이 특히 뛰어난 성능을 보인다.
중국 국가 의사 면허시험에서 13B 모델은 여러 섹션에서 선도적 독점 모델에 근접하거나 일치하며, 특히 오픈 소스 모델 중 다수의 베이스라인을 능가한다.
전문가 및 자동 평가에서 주요 LLM에 비해 경쟁력 있거나 우수한 응답 품질을 보이며, 특히 전통 중국 의학에서 강점을 나타낸다.
데이터 통합과 우선순위 샘플링이 포함된 1단계 도메인 적응은 도메인 지식을 효과적으로 이전시키면서 두 단계 방법에 비해 학습 파이프라인을 단순화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.