[논문 리뷰] MedDG: A Large-scale Medical Consultation Dataset for Building Medical Dialogue System.
이 논문은 12种의 흔한 위장관계 질환에 대해 17,000+건의 대화를 포함하는 대규모 고품질 의료 대화 데이터셋인 MedDG를 소개한다. 이 데이터셋은 질환, 증상, 검사, 약물, 특성 등의 세분화된 엔티티 주석을 포함한다. 본 연구는 다음 엔티티 예측 및 응답 생성이라는 두 가지 과제를 제안하며, 사전 훈련된 모델이 성능을 낮게 보이고, 검색 기반 방법이 생성 모델보다 뛰어나다는 점을 입증함으로써, 더 나은 엔티티 인식 의료 대화 시스템의 필요성을 강조한다.
Developing conversational agents to interact with patients and provide primary clinical advice has attracted increasing attention due to its huge application potential, especially in the time of COVID-19 Pandemic. However, the training of end-to-end neural-based medical dialogue system is restricted by an insufficient quantity of medical dialogue corpus. In this work, we make the first attempt to build and release a large-scale high-quality Medical Dialogue dataset related to 12 types of common Gastrointestinal diseases named MedDG, with more than 17K conversations collected from the online health consultation community. Five different categories of entities, including diseases, symptoms, attributes, tests, and medicines, are annotated in each conversation of MedDG as additional labels. To push forward the future research on building expert-sensitive medical dialogue system, we proposes two kinds of medical dialogue tasks based on MedDG dataset. One is the next entity prediction and the other is the doctor response generation. To acquire a clear comprehension on these two medical dialogue tasks, we implement several state-of-the-art benchmarks, as well as design two dialogue models with a further consideration on the predicted entities. Experimental results show that the pre-train language models and other baselines struggle on both tasks with poor performance in our dataset, and the response quality can be enhanced with the help of auxiliary entity information. From human evaluation, the simple retrieval model outperforms several state-of-the-art generative models, indicating that there still remains a large room for improvement on generating medically meaningful responses.
연구 동기 및 목표
- 엔드 투 엔드 신경망 대화 시스템 훈련을 위한 대규모 고품질 의료 대화 데이터셋 부족 문제를 해결한다.
- 온라인 건강 커뮤니티에서 위장관계 질환에 초점을 맞춘 다양하고 실제적인 의료 상담 데이터셋을 수집 및 공개한다.
- 각 대화를 질환, 증상, 특성, 검사, 약물의 다섯 가지 엔티티 유형으로 주석 처리하여 구조화된 의료 대화 모델링을 지원한다.
- 다음 엔티티 예측 및 의사 응답 생성이라는 두 가지 새로운 의료 대화 과제를 제안하여 의료 대화 시스템 분야의 연구를 진전시킨다.
- 최신 기술 모델을 평가하고 현재 접근 방식의 한계, 특히 의학적으로 의미 있는 응답을 생성하는 데서의 한계를 입증한다.
제안 방법
- 온라인 건강 커뮤니티에서 12종의 흔한 위장관계 질환에 초점을 맞춰 17,000건 이상의 실제 의료 상담 대화를 수집한다.
- 각 대화의 각 발언에 대해 질환, 증상, 특성, 검사, 약물의 다섯 가지 엔티티 유형에 대해 세부적인 주석을 부여한다.
- 두 가지 벤치마크 과제를 설계한다: (1) 다음 엔티티 예측 — 모델이 대화 턴에서 다음 의료 엔티티를 예측하는 것; (2) 의사 응답 생성 — 적절한 의료 응답을 생성하는 것.
- 모델 성능 기준을 설정하기 위해 두 과제 모두에 대해 최신 기술 기반의 백본을 구현한다. 이는 사전 훈련된 언어 모델을 포함한다.
- 예측된 엔티티를 보조 신호로 통합하여 응답 생성 품질을 향상시키는 두 가지 대화 모델을 설계한다.
- 인간 평가를 실시하여 검색 기반 모델과 생성 모델 간의 의학적 관련성 및 응답 품질을 비교한다.
실험 결과
연구 질문
- RQ1대규모 실세계 의료 대화 데이터셋에서 기존의 사전 훈련된 언어 모델은 얼마나 의학적으로 관련성이 있는 응답을 생성하는가?
- RQ2보조 엔티티 정보는 대화 시스템에서 생성된 의료 응답의 품질을 얼마나 향상시킬 수 있는가?
- RQ3간단한 검색 기반 모델이 복잡한 신경망 생성 모델보다 의료 대화 생성에서 뛰어난 성능을 보일 수 있는가?
- RQ4다음 엔티티 예측 성능은 이후 응답 생성 품질과 얼마나 상관이 있는가?
- RQ5현재 신경망 대화 모델이 의학적으로 정확하고 맥락에 적절한 응답을 생성하는 데서 보이는 주요 한계는 무엇인가?
주요 결과
- 사전 훈련된 언어 모델 및 기타 최신 기술 기반 백본은 MedDG 데이터셋에서 다음 엔티티 예측 및 응답 생성 과제에서 빈약한 성능을 보였다.
- 예측된 엔티티 정보를 통합함으로써 생성된 의료 응답의 품질이 크게 향상되었으며, 이는 대화 모델링에서 구조화된 의료 지식의 가치를 시사한다.
- 인간 평가에서 단순한 검색 기반 모델이 여러 고급 신경망 생성 모델보다 뛰어난 성능을 보였으며, 이는 생성 모델이 여전히 의학적 관련성에서 부족함을 겪고 있음을 시사한다.
- MedDG 데이터셋은 대규모 사전 훈련을 거친 후에도 의학적으로 의미 있고 맥락에 정확한 응답을 생성하는 데 있어 상당한 과제를 드러냈다.
- 이 데이터셋과 과제들은 의료 적용 분야에서 더 전문가 민감도가 높고 지식 증강된 대화 시스템의 긴급한 필요성을 강조한다.
- MedDG의 엔티티 수준 주석은 임상 지식 통합에 특화된 향후 의료 대화 시스템 연구에 강력한 기반을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.