QUICK REVIEW

[論文レビュー] Interleaved text/image deep mining on a large-scale radiology database for automated image interpretation

Hoo-Chang Shin, Le Lü|arXiv (Cornell University)|Jan 1, 2016

Topic Modeling参考文献 52被引用数 38

ひとこと要約

本論文は、約216K枚の画像を含む大規模な病院データベースからレントゲン画像とレポート間の意味的関係を抽出する、テキスト/画像を交互に処理する深層学習システムを提案する。全データを用いた弱教師付き学習と、限定的なラベル付きデータを用いた厳密な教師付き学習を組み合わせることで、一般的な疾患タイプの正確な検出が達成され、実臨床システムにおける大規模自動医療画像解釈の可能性が示された。

ABSTRACT

Despite tremendous progress in computer vision, there has not been an attempt to apply machine learning on very large-scale medical image databases. We present an interleaved text/image deep learning system to extract and mine the semantic interactions of radiology images and reports from a national research hospital's Picture Archiving and Communication System. With natural language processing, we mine a collection of ∼216K representative two-dimensional images selected by clinicians for diagnostic reference and match the images with their descriptions in an automated manner. We then employ a weakly supervised approach using all of our available data to build models for generating approximate interpretations of patient images. Finally, we demonstrate a more strictly supervised approach to detect the presence and absence of a number of frequent disease types, providing more specific interpretations of patient scans. A relatively small amount of data is used for this part, due to the challenge in gathering quality labels from large raw text data. Our work shows the feasibility of large-scale learning and prediction in electronic patient records available in most modern clinical institutions. It also demonstrates the trade-offs to consider in designing machine learning systems for analyzing large medical data.

研究の動機と目的

臨床現場における非常に大規模な医療画像データベースへの機械学習応用の不足に対処する。
国立病院のPACSからレントゲン画像と関連するテキストレポート間の意味的関係を抽出する。
全データを用いてラベルなしで近似された画像解釈を生成する弱教師付きモデルを開発する。
限られた高品質なラベル付きデータを用いて、頻度の高い疾患タイプの有無を高特異度で検出する厳密な教師付きアプローチを実装する。
実臨床データを用いた電子的患者記録における大規模学習の可能性と妥当性を示す。

提案手法

臨床医が選択した約216K枚の代表的2次元画像に、自然言語処理を用いてレポートを抽出・マッチングする。
全データセットを用いた弱教師付き学習アプローチを採用し、近似された画像解釈を生成するためのモデルを訓練する。
少量の高品質なラベル付きデータを用いた厳密な教師付き学習手法を実装し、特定の疾患タイプを検出する。
画像特徴とテキスト記述を同時にモデル化するように設計された、インタリーブド深層学習アーキテクチャを構築し、意味的理解を向上させる。
新規データ収集を必要とせず、現代の臨床機関で既存の電子的健康記録データを活用してモデルの訓練および検証を実施する。
弱教師付き学習による広範なパターン学習と、厳密な教師付き学習による高精度な疾患検出を組み合わせることで、データ効率とモデル精度のバランスを図る。

実験結果

リサーチクエスチョン

RQ1大規模な医療画像と関連する臨床レポート間の意味的関係を、スケールに応じて深層学習システムが効果的に抽出・モデル化できるか？
RQ2限られたラベル付きデータを用いた厳密な教師付き学習と、全データを用いた弱教師付き学習では、疾患検出性能においてどのように異なるか？
RQ3実世界の電子的患者記録を用いた大規模医療画像解析のための機械学習システム設計において、実用的な妥当性のトレードオフは何か？
RQ4既存のラベルなし臨床データのみを用いて、自動化されたシステムが臨床的に関連性のある画像解釈をどの程度生成できるか？
RQ5弱教師付きと強教師付き学習を組み合わせたハイブリッド学習戦略は、レントゲン画像における疾患検出の精度を向上させることができるか？

主な発見

本システムは、約216K枚の画像を含む大規模な臨床データベースから、レントゲン画像とレポート間の意味的関係を効果的に抽出できた。
弱教師付きアプローチにより、手動ラベリングを要せず、全データを活用して近似された画像解釈を効果的に生成できた。
限られたラベル付きデータを用いても、厳密な教師付きアプローチにより一般的な疾患タイプの有無の正確な検出が達成された。
本研究では、既存の臨床データインfra構造を活用した電子的患者記録における大規模学習と予測の可能性が示された。
結果から、実臨床医療データへの機械学習適用における、データ効率、ラベル付けコスト、モデル精度の間の主なトレードオフが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。