Skip to main content
QUICK REVIEW

[論文レビュー] Disentangling Human Error from the Ground Truth in Segmentation of Medical Images

Le Zhang, Ryutaro Tanno|arXiv (Cornell University)|Jul 31, 2020
Advanced Neural Network Applications参考文献 45被引用数 76
ひとこと要約

本論文は、ノイズの多い多クラス医用画像ラベルから真のセグメンテーションラベルと注釈者ごとの画素-wise混同行列を共同で学習するエンドツーエンドのCNNフレームワークを提示し、特に注釈が不足している場合や大きく意見が分かれる場合にセグメンテーション精度を向上させる。

ABSTRACT

Recent years have seen increasing use of supervised learning methods for segmentation tasks. However, the predictive performance of these algorithms depends on the quality of labels. This problem is particularly pertinent in the medical image domain, where both the annotation cost and inter-observer variability are high. In a typical label acquisition process, different human experts provide their estimates of the "true" segmentation labels under the influence of their own biases and competence levels. Treating these noisy labels blindly as the ground truth limits the performance that automatic segmentation algorithms can achieve. In this work, we present a method for jointly learning, from purely noisy observations alone, the reliability of individual annotators and the true segmentation label distributions, using two coupled CNNs. The separation of the two is achieved by encouraging the estimated annotators to be maximally unreliable while achieving high fidelity with the noisy training data. We first define a toy segmentation dataset based on MNIST and study the properties of the proposed algorithm. We then demonstrate the utility of the method on three public medical imaging segmentation datasets with simulated (when necessary) and real diverse annotations: 1) MSLSC (multiple-sclerosis lesions); 2) BraTS (brain tumours); 3) LIDC-IDRI (lung abnormalities). In all cases, our method outperforms competing methods and relevant baselines particularly in cases where the number of annotations is small and the amount of disagreement is large. The experiments also show strong ability to capture the complex spatial characteristics of annotators' mistakes.

研究の動機と目的

  • 医用画像における高度な観察者間変動の下で頑健なセグメンテーションを動機づける。
  • 真のラベルと annotator の挙動を分離する2ネットワークアーキテクチャを提案する。
  • 地上真実ラベルなしで純粋にノイズの多い注釈だけから学習可能にする。

提案手法

  • 2つの連結CNN:セグメンテーションネットワークは p(y|x) を推定し、 annotator ネットワークは各注釈者の画素-wise 混同行列 A^{(r)}(x) を推定する。
  • 予測注釈分布:p̂^{(r)}(x) = Â^{(r)}(x) · p̂θ(x)。
  • 訓練は、観測されたノイズ付きラベルと注釈者予測とのクロスエントロピーロスの和と、Â^{(r)}(x) の迹正則化項を用いてノイズと真のラベルを分離するよう最適化する。
  • 損失:L_total = imageごとおよび注釈者ごとに CE(Â^{(r)}(x)·p̂θ(x), ỹ^{(r)}) の和 + λ·tr(Â^{(r)}(x))。
  • sensibly disentangling を促すため、注釈者のCMを対角優勢(単位行列)で初期化するウォームスタートを含む。
  • 多クラスを対象とする多くのクラスで計算量を削減するための低ランク(ランク1)CM近似がオプションとして利用可能。

実験結果

リサーチクエスチョン

  • RQ1モデルは完全にノイズ付きの複数注釈者ラベルだけから地上 truth の分布を学習できるか。
  • RQ2注釈者の挙動と真のラベルを jointly 学習すると、特に画像あたりの注釈数が少ない場合に分割性能は向上するか。
  • RQ3画像依存の画素-wise 混同行列は、多様な医用画像データセットにおける注釈者エラーのパターンをうまく捉えるか。
  • RQ4迹正則化は難易度の高いサンプル固有設定で真のクラスを唯一復元できるか。
  • RQ5提案法は、ラベル融合のベースライン(STAPLE, Spatial STAPLE)と Probabilistic U-net と、合成・現実データセットの両方でどう比較されるか。

主な発見

  • 提案手法(Our)は MNIST ベースの密なセグメンテーションで Dice 82.92%、MSLesion 密セグメンテーションで 67.55% を達成し、STAPLE および Spatial STAPLE のベースラインを上回る。
  • 注釈者の CM 推定誤差(MSE)は Our の方が大幅に小さく、MNIST で 0.0893、MSLesion で 0.0811 などベースラインと比較して有意に低い。
  • 1枚の画像につき1つのラベル設定では、表に示す MNIST/MS コンテキストでも Our がベースラインを上回り、注釈が不足している場合にも頑健性を示す。
  • BraTS および LIDC-IDRI では、密集および単一ラベルの両方のシナリオで STAPLE 系より高い Dice を示し、CM 推定には大きな改善を示す(例:BraTS で 14.4% の改善)。
  • Generalised Energy Distance (GED) の比較では MNIST、MS、BraTS、LIDC-IDRI の各データセットで Probabilistic U-Net よりも Our が有利(例:MNIST 1.24 vs 1.46、MS 1.67 vs 1.91、BraTS 3.14 vs 3.23、LIDC-IDRI 1.87 vs 1.97)。
  • データセットをまたいで、画像依存の画素-wise CM はグローバルCMや画像ごとのベースラインより注釈者間のばらつきをより良く捉え、セマンティック精度とCM忠実度の一貫した改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。