[论文解读] How much data is needed to train a medical image deep learning system to achieve necessary high accuracy?
本研究提出了一种学习曲线外推方法,用于确定医学影像深度学习系统实现最优训练数据规模的条件,使用被划分为六个解剖类别的轴向CT扫描图像。通过在每类5至200张图像的递增数据规模上训练卷积神经网络(CNN),作者预测每类需4,092张图像才能达到99.5%的准确率,而验证时在每类1,000张图像的规模下达到97.25%的准确率,为医学人工智能中的数据规模估算提供了一种可推广的框架。
The use of Convolutional Neural Networks (CNN) in natural image classification systems has produced very impressive results. Combined with the inherent nature of medical images that make them ideal for deep-learning, further application of such systems to medical image classification holds much promise. However, the usefulness and potential impact of such a system can be completely negated if it does not reach a target accuracy. In this paper, we present a study on determining the optimum size of the training data set necessary to achieve high classification accuracy with low variance in medical image classification systems. The CNN was applied to classify axial Computed Tomography (CT) images into six anatomical classes. We trained the CNN using six different sizes of training data set (5, 10, 20, 50, 100, and 200) and then tested the resulting system with a total of 6000 CT images. All images were acquired from the Massachusetts General Hospital (MGH) Picture Archiving and Communication System (PACS). Using this data, we employ the learning curve approach to predict classification accuracy at a given training sample size. Our research will present a general methodology for determining the training data set size necessary to achieve a certain target classification accuracy that can be easily applied to other problems within such systems.
研究动机与目标
- 为解决在医学影像深度学习系统中确定实现高准确率所需训练数据量这一关键空白问题。
- 开发一种可推广的方法论,用于估算训练数据规模,以确保医学影像分类中高准确率和低方差。
- 评估不同训练数据规模对CT扫描中多个解剖区域分类性能的影响。
- 为未来医学人工智能系统提供一种数据驱动的方法,以避免因数据不足或过多导致的欠拟合或过拟合。
- 支持在准确率至关重要的临床环境中部署可靠且高性能的深度学习模型。
提出的方法
- 在六个递增的训练数据规模上训练卷积神经网络(CNN):每类5、10、20、50、100和200张图像。
- 使用来自MGH影像归档与通信系统(PACS)的轴向CT图像,所有图像均为DICOM格式,质量标准化,并附有放射科医生标注的报告。
- 采用学习曲线方法,将分类准确率建模为训练样本规模的函数,使用加权最小二乘法进行曲线拟合。
- 在固定测试集(6,000张CT图像)上评估性能,通过重复实验测量准确率和标准差。
- 将学习曲线外推,以预测在观察数据范围之外达到目标准确率(如99.5%)所需的数据量。
- 通过在每类1,000张训练图像上测试模型,验证预测结果,并比较预测值与实际准确率。
实验结果
研究问题
- RQ1医学影像深度学习系统实现高分类准确率(例如>99%)所需的最少训练数据量是多少?
- RQ2增加训练数据规模如何影响CT扫描中不同解剖区域的分类准确率和方差?
- RQ3学习曲线外推方法能否可靠预测医学影像分类中达到目标准确率所需的数据规模?
- RQ4随着训练集规模的增加,误分类图像的标准差如何变化,这对模型鲁棒性有何含义?
- RQ5所提出的方法论在多大程度上可推广至其他医学影像分类任务?
主要发现
- 从每类5张到50张图像,分类准确率迅速上升,平均从8.01%提高至77.15%,表明在小样本量下对数据高度敏感。
- 在每类100张至200张图像之间,准确率趋于平稳,分别达到89.68%和95.67%,表明在此范围之后收益递减。
- 学习曲线预测在每类1,000张图像时准确率达到98%,经验证实际准确率为97.25%,证实了模型的可靠性。
- 根据外推预测,模型需每类4,092张图像才能达到目标准确率99.5%。
- 随着训练集规模增大,误分类图像的标准差减小,表明模型一致性提高,方差降低。
- 每类5张和10张图像的训练集标准差较低,但因误分类率高,确认了在极小样本量下模型的不稳定性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。