[論文レビュー] Deep Modeling and Interpretation for Bladder Cancer Classification
論文は、腎臓がんではなく膀胱がん分類のため13個の深層モデル(CNNとViT)を多施設データセットで評価し、GradCAM++による校正と解釈性を分析し、テスト時拡張の効果を検討します。
Deep models based on vision transformer (ViT) and convolutional neural network (CNN) have demonstrated remarkable performance on natural datasets. However, these models may not be similar in medical imaging, where abnormal regions cover only a small portion of the image. This challenge motivates this study to investigate the latest deep models for bladder cancer classification tasks. We propose the following to evaluate these deep models: 1) standard classification using 13 models (four CNNs and eight transormer-based models), 2) calibration analysis to examine if these models are well calibrated for bladder cancer classification, and 3) we use GradCAM++ to evaluate the interpretability of these models for clinical diagnosis. We simulate $\sim 300$ experiments on a publicly multicenter bladder cancer dataset, and the experimental results demonstrate that the ConvNext series indicate limited generalization ability to classify bladder cancer images (e.g., $\sim 60\%$ accuracy). In addition, ViTs show better calibration effects compared to ConvNext and swin transformer series. We also involve test time augmentation to improve the models interpretability. Finally, no model provides a one-size-fits-all solution for a feasible interpretable model. ConvNext series are suitable for in-distribution samples, while ViT and its variants are suitable for interpreting out-of-distribution samples.
研究の動機と目的
- multicenter膀胱がんデータセットで13個の深層モデル(四つのConvNeXt、八つのViTベース、Swin Transformer変種) の性能を評価する。
- 追加の校正手法なしで期待校正誤差(ECE)と信頼性プロットを用いてモデルの校正を評価する。
- in-distributionとout-of-distribution設定の両方でGradCAM++を用いてモデルの解釈性を評価する。
- モデル解釈性とヒートマップ品質に対するテスト時拡張(TTA)の影響を調べる。
- 性能と校正に対する影響を理解するために5つの最適化手法間で最適化戦略を比較する。
提案手法
- 224x224入力サイズとz-score正規化を用いた統一前処理・訓練パイプラインを各モデルで適用する。
- 共通のハイパーパラメータセットを用いて5つの最適化手法(SGD、Adam、AdamW、Adagrad、Adadelta)で13モデルを訓練する。
- 分類指標としてAccuracy(ACC)、Balanced Accuracy(BACC)、Precision、Recall、F1、AVGを評価する。
- 校正指標としてExpected Calibration Error(ECE)と信頼性プロットを計算する。
- In-distributionおよびOut-of-distributionデータに対して、TTAの有無でGradCAM++を用いてモデルの注意機構を可視化する。
- 膀胱データセットを用いた4分割クロスセンター分割(C1–C4)を訓練/検証/テストに適用する。
実験結果
リサーチクエスチョン
- RQ1多施設膀胱がんデータで、どの深層モデル(CNN対ViT対Swin Transformer)がIDおよびOODパフォーマンスを最も良く表すか?
- RQ2追加の校正手法なしで、これらのモデルは膀胱がん分類に対してどれくらい適切に校正されているか?
- RQ3GradCAM++のヒートマップはIDとOOD設定の解釈性を信頼性高く提供するか、TTAは説明性を改善するか?
- RQ4異なる最適化手法は、パフォーマンス、校正、実行時間にどのような影響をモデルファミリ間で与えるか?
- RQ5センター間のドメインシフトは、校正と解釈性分析を通じて緩和または検出できるか?
主な発見
- ConvNextモデルはテストデータで一般化が制限され、いくつかのケースで約60%の精度。
- ViTベースのモデルはConvNeXtおよびSwin Transformer系列より校正が良好であることが多いが、センター間で一貫性はない。
- ViT_h_14のようなViT変種はConvNextモデルと比べて relatively betterな校正結果を示す。
- Swin Transformerモデルは全体として校正が劣る(高いECE)場合が多いが、foldによってはAVG指標が競合する場合もある。
- GradCAM++のヒートマップはConvNextモデルがIDの説明性をより信頼できることを示す一方、ViTモデルは一部のセンターでOODの注意をより良く示す。
- テスト時拡張は一部のモデルの解釈性を向上させ、IDとOOD設定で注意パターンを変換する効果を持つ場合があるが、全体的な利益はモデルによって異なる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。