QUICK REVIEW

[論文レビュー] Semi-Supervised Medical Image Segmentation via Cross Teaching between CNN and Transformer

Xiangde Luo, Minhao Hu|arXiv (Cornell University)|Dec 9, 2021

Radiomics and Machine Learning in Medical Imaging被引用数 99

ひとこと要約

本論文は、ラベル付きデータを互いに監督し、ラベルなしデータには擬似ラベルを提供するクロス・ティーチングフレームワークを導入し、半教師付きセグメンテーション性能を高めている。医用画像セグメンテーションのためにCNNとTransformerを組み合わせた初の半教師付き試みを示し、ACDCベンチマークで8つのベースラインを上回る改善を示す。

ABSTRACT

Recently, deep learning with Convolutional Neural Networks (CNNs) and Transformers has shown encouraging results in fully supervised medical image segmentation. However, it is still challenging for them to achieve good performance with limited annotations for training. In this work, we present a very simple yet efficient framework for semi-supervised medical image segmentation by introducing the cross teaching between CNN and Transformer. Specifically, we simplify the classical deep co-training from consistency regularization to cross teaching, where the prediction of a network is used as the pseudo label to supervise the other network directly end-to-end. Considering the difference in learning paradigm between CNN and Transformer, we introduce the Cross Teaching between CNN and Transformer rather than just using CNNs. Experiments on a public benchmark show that our method outperforms eight existing semi-supervised learning methods just with a simpler framework. Notably, this work may be the first attempt to combine CNN and transformer for semi-supervised medical image segmentation and achieve promising results on a public benchmark. The code will be released at: https://github.com/HiLab-git/SSL4MIS.

研究の動機と目的

注釈が高コストな医用画像における半教師付きセグメンテーションの動機づけ。
ラベルなしデータを活用するための、CNNとTransformer間のシンプルなクロス・ティーチング方式を提案する。
CNNの局所特徴とTransformersのグローバルコンテキストといった補完的な長所を、一つの学習フレームワークで活用する。
公開ベンチマーク上で複数の既存半教師付き手法を上回ることで有効性を示す。

提案手法

各画像に対してCNN (f^c) と Transformer (f^t) の予測を計算する。
対となるモデルの予測のargmaxによって擬似ラベルを生成する（pl^c は f^t から、pl^t は f^c から）。
ラベルなしデータに対して、予測と擬似ラベルの間の Dice ロスを用いた双方向のクロスティーチング損失で学習する（L_ctl = L_dice(p^c, pl^c) + L_dice(p^t, pl^t)）。
ラベル付きデータ上の教師付き損失（L_sup = L_ce(p, y) + L_dice(p, y)）を、クロスティーチング損失と組み合わせる（L_total = L_sup + λ L_ctl）。
訓練中に監督付きと半監督項のバランスをとるため、λ の時間依存的なガウス暖化を採用する。

実験結果

リサーチクエスチョン

RQ1限られたアノテーションで、CNNとTransformer間のクロスティーチングは堅牢な半教師付きセグメンテーションを提供できるか？
RQ2この設定で、クロスティーチングは従来の整合性正則化よりも優れた擬似ラベルとセグメンテーション精度を生み出すか？
RQ3医用画像セグメンテーション性能に対する、CNN–Transformerクロスティーチングの影響は、同じアーキテクチャのアプローチと比較してどうか？
RQ4半教師付きセグメンテーションにおいて、クロスティーチングフレームワーク内で Dice ロスとクロスエントロピー損失はどのように比較されるか？

主な発見

提案された CNN–Transformer クロスティーチングフレームワークは、ACDC ベンチマークで eight existing semi-supervised methods を上回る。
CNNと Transformer 間のクロスティーチングは、それぞれのアーキテクチャ単独使用や一貫性正則化ベースラインよりも良い結果をもたらす。
クロスティーチングにおいて Dice ロス（単独、または CE との組み合わせ）を用いると、単一の損失タイプを用いる場合よりも利得があり、CE+DICE の組み合わせはニュアンスのある効果を示す。
Transformer 単独でも一部の半教師付き設定で競争力があるが、CNN–Transformer クロスティーチングは平均性能と安定性の点で優れている。
このアプローチは、一般的な構成要素でのシンプルで低複雑な訓練に依存し、推論時の複雑な後処理を必要としない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。