QUICK REVIEW

[論文レビュー] How much data is needed to train a medical image deep learning system to achieve necessary high accuracy?

Junghwan Cho, Kyewook Lee|arXiv (Cornell University)|Nov 19, 2015

AI in cancer detection参考文献 3被引用数 276

ひとこと要約

本研究では、胸部CTスキャンを6つの解剖学的クラスに分類し、医療画像深層学習システムの最適な訓練データサイズを決定するための学習曲線外挿法を提案する。5～200枚/クラスの増加するデータサイズでCNNを訓練した結果、99.5%の正確性に到達するには1クラスあたり4,092枚の画像が必要であり、1,000枚/クラスでの検証で97.25%の正確性を達成した。本手法は、医療AI分野におけるデータサイズ推定の汎用的フレームワークを提供する。

ABSTRACT

The use of Convolutional Neural Networks (CNN) in natural image classification systems has produced very impressive results. Combined with the inherent nature of medical images that make them ideal for deep-learning, further application of such systems to medical image classification holds much promise. However, the usefulness and potential impact of such a system can be completely negated if it does not reach a target accuracy. In this paper, we present a study on determining the optimum size of the training data set necessary to achieve high classification accuracy with low variance in medical image classification systems. The CNN was applied to classify axial Computed Tomography (CT) images into six anatomical classes. We trained the CNN using six different sizes of training data set (5, 10, 20, 50, 100, and 200) and then tested the resulting system with a total of 6000 CT images. All images were acquired from the Massachusetts General Hospital (MGH) Picture Archiving and Communication System (PACS). Using this data, we employ the learning curve approach to predict classification accuracy at a given training sample size. Our research will present a general methodology for determining the training data set size necessary to achieve a certain target classification accuracy that can be easily applied to other problems within such systems.

研究の動機と目的

医療画像深層学習システムが高精度を達成するための訓練データ量を決定するという重要なギャップを埋めること。
高精度で分散が小さい医療画像分類を実現するための、一般化可能な訓練データサイズ推定手法を開発すること。
複数の解剖学的領域におけるCTスキャンで、訓練データサイズの変化が分類性能に与える影響を評価すること。
今後の医療AIシステムがデータ不足や過剰なデータによるアンダーフィッティングやオーバーフィッティングを回避できる、データ駆動型の手法を提供すること。
正確性が最重要視される臨床現場での信頼性が高く、高性能な深層学習モデルの導入を支援すること。

提案手法

6つの増加する訓練データサイズ（5、10、20、50、100、200枚/解剖学的クラス）で畳み込みニューラルネットワーク（CNN）を訓練した。
MGHのピクチャリング・アーカイブ・アンド・コミュニケーション・システム（PACS）から得た軸方向CT画像を用い、すべてDICOM形式であり、標準化された品質と放射線科医によるアノテーション付きレポートを有していた。
重み付き最小二乗法を用いて曲線フィッティングすることで、分類正確性を訓練サンプルサイズの関数としてモデル化する学習曲線アプローチを適用した。
固定されたテストセット（6,000枚のCT画像）を用いて性能を評価し、繰り返し実験における正確性と標準偏差を測定した。
観察範囲を超える目標正確性（例：99.5%）に到達するためのデータ要件を予測するために、学習曲線を外挿した。
1,000枚/クラスの訓練データでモデルをテストし、予測値と実際の正確性を比較することで、予測の妥当性を検証した。

実験結果

リサーチクエスチョン

RQ1医療画像深層学習システムで高い分類正確性（例：>99%）を達成するための最小訓練データ量はどの程度か？
RQ2訓練データサイズの増加が、CTスキャンにおける複数の解剖学的領域における分類正確性と分散に与える影響は何か？
RQ3学習曲線外挿法は、医療画像分類で目標正確性に到達するためのデータ量を信頼性を持って予測できるか？
RQ4訓練セットサイズの増加に伴い、誤分類の標準偏差はどのように変化するか？また、これはモデルの頑健性に何を示唆するか？
RQ5本手法は、他の医療画像分類タスクに対してもどの程度一般化可能か？

主な発見

5～50枚/クラスの範囲で分類正確性は急激に上昇し、平均で8.01%から77.15%に上昇した。これは、小規模なサンプルサイズでは高いデータ感受性が示されたことを意味する。
100～200枚/クラスの範囲で正確性は頭打つようになり、それぞれ89.68%と95.67%に達した。これは、この範囲を超えると収益が減少する傾向にあることを示唆している。
学習曲線は1,000枚/クラスで98%の正確性を予測したが、実際の正確性は97.25%に達し、モデルの信頼性が裏付けられた。
外挿による予測では、99.5%の目標正確性に到達するには1クラスあたり4,092枚の画像が必要であった。
誤分類画像の標準偏差は、訓練セットが大きくなるに従い減少し、モデルの一貫性が向上し分散が低減していることを示した。
5枚および10枚の訓練セットでは、誤分類率が高いため標準偏差が低く、極めて小さなサンプルサイズでは不安定であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。