QUICK REVIEW

[論文レビュー] MedDG: A Large-scale Medical Consultation Dataset for Building Medical Dialogue System.

Wenge Liu, Jianheng Tang|arXiv (Cornell University)|Oct 15, 2020

Topic Modeling参考文献 24被引用数 24

ひとこと要約

本稿では、12種の一般的な消化器疾患に関する17,000件を超える会話から構成され、疾患、症状、検査、薬物、属性の細分化されたエンティティアノテーションを備えた大規模で高品質な医療会話データセットMedDGを紹介する。2つのタスク—次エンティティ予測と応答生成—を提案し、事前学習モデルの性能が低い一方で、リtrievalベースの手法が生成モデルを上回ることを示し、より優れたエンティティに配慮した医療会話システムの必要性を浮き彫りにしている。

ABSTRACT

Developing conversational agents to interact with patients and provide primary clinical advice has attracted increasing attention due to its huge application potential, especially in the time of COVID-19 Pandemic. However, the training of end-to-end neural-based medical dialogue system is restricted by an insufficient quantity of medical dialogue corpus. In this work, we make the first attempt to build and release a large-scale high-quality Medical Dialogue dataset related to 12 types of common Gastrointestinal diseases named MedDG, with more than 17K conversations collected from the online health consultation community. Five different categories of entities, including diseases, symptoms, attributes, tests, and medicines, are annotated in each conversation of MedDG as additional labels. To push forward the future research on building expert-sensitive medical dialogue system, we proposes two kinds of medical dialogue tasks based on MedDG dataset. One is the next entity prediction and the other is the doctor response generation. To acquire a clear comprehension on these two medical dialogue tasks, we implement several state-of-the-art benchmarks, as well as design two dialogue models with a further consideration on the predicted entities. Experimental results show that the pre-train language models and other baselines struggle on both tasks with poor performance in our dataset, and the response quality can be enhanced with the help of auxiliary entity information. From human evaluation, the simple retrieval model outperforms several state-of-the-art generative models, indicating that there still remains a large room for improvement on generating medically meaningful responses.

研究の動機と目的

エンドツーエンドのニューラル会話システムを学習するための、大規模で高品質な医療会話データセットの不足に対処する。
オンライン健康コミュニティから、消化器疾患に焦点を当てた多様で現実世界の医療相談データセットを収集・公開する。
会話ごとに5つのエンティティタイプ（疾患、症状、属性、検査、薬物）をアノテートし、構造化された医療会話モデリングを支援する。
次エンティティ予測と医師の応答生成という2つの新しい医療会話タスクを提案し、医療会話システム分野の研究を前進させる。
最先端のモデルを評価し、特に医療的に意味のある応答を生成する点での現在のアプローチの限界を示す。

提案手法

オンライン健康コミュニティから、12種の一般的な消化器疾患に焦点を当て、17,000件を超える実際の医療相談会話を収集する。
会話内の各発話に対して、5つのエンティティタイプ（疾患、症状、属性、検査、薬物）について詳細なアノテーションを実施する。
2つのベンチマークタスクを設計する：(1) 次エンティティ予測（会話ターンにおける次の医療エンティティを予測するタスク）と、(2) 医師の応答生成（適切な医療的応答を生成するタスク）。
両タスクに対して、事前学習言語モデルを含む複数の最先端のベースラインを実装し、パフォーマンスベンチマークを確立する。
予測されたエンティティを補助信号として組み込むことで、応答生成の質を向上させる2つの会話モデルを設計する。
人間による評価を実施し、医療的関連性と応答品質の観点から、リtrievalベースのモデルと生成モデルを比較する。

実験結果

リサーチクエスチョン

RQ1大規模で現実世界の医療会話データセット上で、既存の事前学習言語モデルは、医療的に関連性のある応答を生成するのにどの程度有効であるか？
RQ2補助的なエンティティ情報は、会話システムにおける生成された医療的応答の質をどの程度向上させることができるか？
RQ3シンプルなリtrievalベースのモデルは、複雑なニューラル生成モデルを上回る性能を示すことができるか？
RQ4次エンティティ予測のパフォーマンスと、その後に続く応答生成の質との間に、どの程度相関があるか？
RQ5現在のニューラル会話モデルは、医療的に正確で文脈的に適切な応答を生成する点で、どのような主な限界を抱えているか？

主な発見

事前学習言語モデルおよびその他の最先端ベースラインは、MedDGデータセットにおける次エンティティ予測および応答生成タスクの両方で、低いパフォーマンスを示している。
予測されたエンティティ情報を組み込むことで、生成された医療的応答の質が顕著に向上することが示され、会話モデリングにおける構造化された医療知識の価値が裏付けられている。
人間による評価において、シンプルなリtrievalベースのモデルが、複数の高度なニューラル生成モデルを上回る性能を示しており、生成モデルが医療的関連性においてまだ不足していることが示唆されている。
MedDGデータセットは、大規模な事前学習でさえも、医療的に意味のある応答や文脈的に正確な応答を生成する点で顕著な課題を明らかにしている。
このデータセットとタスクは、医療応用分野におけるよりエキスパートに配慮した、知識拡張型の会話システムの緊急の必要性を浮き彫りにしている。
MedDGにおけるエンティティレベルのアノテーションは、特に臨床知識の統合を目的とした、今後の医療会話システム分野の研究の強固な基盤を提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。