[논문 리뷰] TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine
TCMBench는 Traditional Chinese Medicine에서 LLM 성능을 평가하고 분석하기 위한 전용 벤치마크와 지표(TCM-ED, TMNLI, TCMDeberta, 및 TCMScore)를 도입하여 도메인 지식과 프롬프트 전략의 영향 및 개선 여지가 크다는 것을 보여줍니다.
Large language models (LLMs) have performed remarkably well in various natural language processing tasks by benchmarking, including in the Western medical domain. However, the professional evaluation benchmarks for LLMs have yet to be covered in the traditional Chinese medicine(TCM) domain, which has a profound history and vast influence. To address this research gap, we introduce TCM-Bench, an comprehensive benchmark for evaluating LLM performance in TCM. It comprises the TCM-ED dataset, consisting of 5,473 questions sourced from the TCM Licensing Exam (TCMLE), including 1,300 questions with authoritative analysis. It covers the core components of TCMLE, including TCM basis and clinical practice. To evaluate LLMs beyond accuracy of question answering, we propose TCMScore, a metric tailored for evaluating the quality of answers generated by LLMs for TCM related questions. It comprehensively considers the consistency of TCM semantics and knowledge. After conducting comprehensive experimental analyses from diverse perspectives, we can obtain the following findings: (1) The unsatisfactory performance of LLMs on this benchmark underscores their significant room for improvement in TCM. (2) Introducing domain knowledge can enhance LLMs' performance. However, for in-domain models like ZhongJing-TCM, the quality of generated analysis text has decreased, and we hypothesize that their fine-tuning process affects the basic LLM capabilities. (3) Traditional metrics for text generation quality like Rouge and BertScore are susceptible to text length and surface semantic ambiguity, while domain-specific metrics such as TCMScore can further supplement and explain their evaluation results. These findings highlight the capabilities and limitations of LLMs in the TCM and aim to provide a more profound assistance to medical research.
연구 동기 및 목표
- TCM-에 특화된 벤치마크가 Western 의학 중심 데이터셋을 넘어 LLM을 평가해야 함의 필요성을 제시한다.
- TCM Licensing Exam(TCMLE)에서 대규모의 대표적 평가 데이터셋(TCM-ED)을 구축한다.
- TCM 텍스트 생성에서 의미론적 일관성과 지식 일관성을 평가하는 도메인 정렬 평가 지표(TCMScore)를 개발한다.
- 모델 규모, 도메인 지식 및 프롬프트 전략이 TCM에서의 LLM 성능에 미치는 영향을 조사한다.
- 향후 TCM 애플리케이션을 위한 LLM 개발을 안내하기 위한 통찰을 제공한다.
제안 방법
- TCMLE에서 5,473개의 Q&A 쌍으로 구성된 TCM-ED를 구축하되, 가지와 질문 유형 전반에 걸친 커버리지를 확보하고 표준 분석을 1,300개 수행한다.
- TCM-LE의 분석과 일치하는 의미론적 일관성을 평가하기 위한 TCM-특화 NLI 데이터 세트(TMNLI)을 생성한다(분석과 함께 9,788개의 질문).
- TCM 의미론적 일관성을 추론하기 위한 미세 조정된 NLI 모델인 TCM-Deberta를 개발한다.
- 용어 수준 매칭(Term F1*)과 의미론적 일관성(TCM-Deberta 점수) 및 길이 페널티를 결합하여 TCMScore를 정의하고 계산한다.
- 다지선다형 문제에서의 정확도와 1,300개의 분석 기반 평가를 전통적 및 도메인 특화 지표(Rouge, BertScore, BartScore, TCMScore)로 평가한다.
- 작업 설명, 코트(CoT), 소수 샷 및 다턴 대화를 활용한 프롬프트 엔지니어링으로 가지 간 추론 및 안정성을 평가한다.
실험 결과
연구 질문
- RQ1진짜 TCM 지식 및 임상 추론 질문에서 대형 언어 모델의 기준선 성능은 어느 수준인가?
- RQ2도메인 지식 추가 또는 목표로 하는 미세 조정이 TCM에서의 LLM 성능을 개선하고 핵심 추론 능력에 어떤 영향을 미치는가?
- RQ3전통적 생성 지표(Rouge, BertScore, BartScore)와 도메인 특화 지표(TCMScore)가 TCM 지식 정확성 및 일관성을 반영하는 데 어떤 차이를 보이는가?
- RQ4CoT, few-shot, 다턴 대화와 같은 프롬프트 전략이 TCM 이해와 추론을 개선하는 데 어떤 역할을 하는가?
- RQ5TCM Basis, Clinical Medicine, Western Medicine와 같은 TCM 가지 간 성능은 어떻게 다르게 나타나는가?
주요 결과
- 평가된 LLM 중 어느 것도 TCMLE에서 60% 기준을 넘지 못해 TCM AI의 개선 여지가 크다는 것을 시사한다.
- 도메인 지식이나 특수한 튜닝이 성능을 개선할 수 있지만, 미세 조정은 핵심 추론 및 언어 능력을 약화시킬 수 있다.
- 도메인 특화 지표(TCMScore)는 Rouge/BertScore/SARI를 넘어 TCM 용어 사용 및 의미론적 일관성을 포착하는 면에서 보완적 통찰을 제공한다.
- 예시를 통한 프롬프트(Few-shot)는 일반적으로 복잡한 추론을 향상시키는 경향이 있으나, 지나치게 긴 프롬프트는 일부 모델의 성능을 저하시킬 수 있다.
- GPT-4가 실험 대상 모델 중 최고 전체 정확도를 보였으나 통과 미달인 점은 도메인 격차를 강조하며, Cross-domain 모델(예: ChatGLM)은 적절한 중국어 말뭉치에 대해 특정 가지에서 뛰어나다.
- 평가 결과 텍스트 길이 및 표면적 유사성이 전통 지표에 영향을 주는 반면, TCMScore는 지식 정확도와 일관성을 더 잘 반영한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.