[論文レビュー] CellViT: Vision Transformers for Precise Cell Segmentation and Classification
CellViTはPanNuke上で核の個体分割と分類のためのVision TransformerベースのU-Net風アーキテクチャを導入し、ViTエンコーダとマルチタスクデコーディングを用いて最先端の指標を達成する。
Nuclei detection and segmentation in hematoxylin and eosin-stained (H&E) tissue images are important clinical tasks and crucial for a wide range of applications. However, it is a challenging task due to nuclei variances in staining and size, overlapping boundaries, and nuclei clustering. While convolutional neural networks have been extensively used for this task, we explore the potential of Transformer-based networks in this domain. Therefore, we introduce a new method for automated instance segmentation of cell nuclei in digitized tissue samples using a deep learning architecture based on Vision Transformer called CellViT. CellViT is trained and evaluated on the PanNuke dataset, which is one of the most challenging nuclei instance segmentation datasets, consisting of nearly 200,000 annotated Nuclei into 5 clinically important classes in 19 tissue types. We demonstrate the superiority of large-scale in-domain and out-of-domain pre-trained Vision Transformers by leveraging the recently published Segment Anything Model and a ViT-encoder pre-trained on 104 million histological image patches - achieving state-of-the-art nuclei detection and instance segmentation performance on the PanNuke dataset with a mean panoptic quality of 0.50 and an F1-detection score of 0.83. The code is publicly available at https://github.com/TIO-IKIM/CellViT
研究の動機と目的
- 診断支援と下流のバイオマーカー発見を支援するために、デジタル化されたH&Eスライドにおける核の正確な解析を動機づける。
- U-Net風フレームワーク内でVision Transformersを活用した核の個体分割モデルを開発する。
- 大規模な事前学習済みVision Transformersとファウンデーションモデル(ViT256とSAM)を活用してセグメーションと分類を改善する。
- 大きなパッチサイズを用いたgigapixel全スライド画像(WSI)の効率的な推論パイプラインを提供する。
- 核タイプの分類と組織レベルの指導を有効にしてエンコーダー学習を改善する。
提案手法
- 入力画像をViTエンコードのための16x16ピクセルトークンのシーケンスに変換し、学習可能なクラスTokenと2D位置埋め込みを用いる。
- NP(核), HV(水平/垂直距離), NT(核タイプ)ブランチを含む5つのスキップ接続で接続されたViTエンコーダを多BranchのU-Net風デコーダに採用する。
- PanNukeの組織ラベルを用いてエンコーダ学習を導く組織分類ブランチ(TC)を組み込む。
- 式で詳述するBCE、DICE、MSE、MSGE、Focal Tversky losses を用いてNP、HV、NT、TCブランチを組み合わせた複合損失で学習する。
- 重複する核を分離しNTマップの多数決で核タイプを割り当てるための後処理(HoVer-Netに触発)を適用する。
- 104Mの組織パッチで事前学習済みのViT256(ViT256)とSegment Anything Model(SAM)をバックボーンエンコーダとして評価し、転移学習とドメイン内/ドメイン外の事前学習を行う。
実験結果
リサーチクエスチョン
- RQ1ヒストロジー データで事前学習されたVision Transformer'sは、PanNukeにおける核の個体分割をCNNベースの手法と比較して改善できるか?
- RQ2ViTエンコーダをマルチブランチデコーダと統合することが、組織タイプを跨ぐセグメンテーション精度と核分類にどう影響するか?
- RQ3事前学習の選択(ViT256、SAM)がPanNukeの性能とMoNuSegのような他データセットへの汎化に与える影響は何か?
- RQ4高速な大パッチ推論戦略(1024x1024 px)が精度を維持しつつWSIスケールの分析を可能にするか?
- RQ5組織レベルの監督がエンコーダ表現を導き、下流の核分類を改善できるか?
主な発見
- PanNukeで平均パノプティック品質(PQ) 0.50、F1-detection 0.83で最先端の核検出と個体分割を達成。
- 核分析のための大規模なドメイン内外の事前学習ViT(ViT256とSAM)の有効性を実証。
- ファインチューニングなしでMoNuSegへ一般化し、データセット間の頑健性を示す。
- 1024x1024 pxパッチを用いたWSI推論を高速化し、HoVer-Netベースラインより1.85倍速く、セグメンテーション品質を維持。
- 核の検出、局在、タイプ分類を単一のフォワードパスで得られる統合フレームワークを提供し、CNNのみのパイプラインと比較して実行時間を削減。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。