[论文解读] What Are People Asking About COVID-19? A Question Classification Dataset
本文介绍了Covid-Q,一个包含1,690个关于COVID-19的问题的数据集,问题来自13个来源,被标注为15个类别和207个聚类。该研究提出了基于BERT的基线模型,在问题分类任务(15个类别,每类20个样本)上达到58.1%的准确率,在使用三元组损失的聚类任务上达到49.5%的准确率,为大流行病信息检索和模型评估中的自然语言处理系统提供了资源。
We present COVID-Q, a set of 1,690 questions about COVID-19 from 13 sources, which we annotate into 15 question categories and 207 question clusters. The most common questions in our dataset asked about transmission, prevention, and societal effects of COVID, and we found that many questions that appeared in multiple sources were not answered by any FAQ websites of reputable organizations such as the CDC and FDA. We post our dataset publicly at https://github.com/JerryWeiAI/COVID-Q. For classifying questions into 15 categories, a BERT baseline scored 58.1% accuracy when trained on 20 examples per category, and for a question clustering task, a BERT + triplet loss baseline achieved 49.5% accuracy. We hope COVID-Q can help either for direct use in developing applied systems or as a domain-specific resource for model evaluation.
研究动机与目标
- 收集并标注真实世界中公众关于COVID-19的问题,以更好地理解大流行期间公众的信息需求。
- 创建一个结构化数据集,用于训练和评估专注于公共卫生危机背景下问题理解与检索的自然语言处理模型。
- 弥合公共论坛中常见问题与权威组织(如CDC和FDA)官方FAQ网站覆盖内容之间的差距。
- 为评估特定领域自然语言处理模型在时效性强、真实世界健康相关问题集上的表现提供基准。
提出的方法
- 从13个来源收集了1,690个问题,包括官方卫生机构的FAQ和Quora、Yahoo Answers等众包平台。
- 将问题标注为15个语义类别(例如传播、预防、社会影响)并分组为207个聚类,代表相同意图。
- 通过去除模糊、无意义、与地理位置相关或与时间相关的的问题,进行数据清洗,以提高语言一致性并减少冗余。
- 训练基于BERT的模型完成两项任务:(1) 使用SVM和k-NN对池化后的BERT嵌入进行问题类别分类;(2) 使用三元组损失和两层神经网络对BERT特征进行问题聚类。
- 聚类任务采用70/30的训练-测试划分,分类任务采用300/668/238的划分(真实和生成的测试集),并通过数据增强提升小样本数据下的性能。
- 使用准确率评估模型,聚类任务中通过阈值设定区分已知聚类与新问题。
实验结果
研究问题
- RQ1人们关于COVID-19最常提出的问题类型是什么?这些类型在不同来源之间有何差异?
- RQ2官方FAQ网站(如CDC、FDA)在多大程度上覆盖了公共论坛中常见的问题?
- RQ3在仅有20个标注样本每类的有限标注数据下,基于BERT的模型在将COVID-19问题分类到15个语义类别中的有效性如何?
- RQ4在BERT嵌入上使用三元组损失进行微调,能否提升零样本或少样本场景下问题聚类的性能,以实现意图匹配?
- RQ5数据增强和模型架构选择如何影响低资源环境下问题分类与聚类任务的性能?
主要发现
- 最常见的问题类别为传播(27个)、社会影响(23个)、预防(20个)和症状(12个),表明公众对传播风险和自身健康风险高度关注。
- 超过78%的问题被归入包含多个问题的聚类中,表明公众查询中存在显著的冗余性和意图相似性。
- 尽管官方FAQ页面内容详尽,但许多来自公众来源的常见问题并未被CDC、FDA或其他权威机构解答。
- BERT + SVM基线模型在仅使用每类别20个训练样本的情况下,问题分类准确率达到58.1%,证明了在低样本设置下的可行性。
- BERT + 三元组损失模型在问题聚类任务中达到49.5%的准确率,且通过数据增强进一步提升了性能。
- 混淆矩阵显示,“预防”和“社会应对”等类别常被误分类,表明公众查询中存在语义模糊性或类别重叠。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。