[論文レビュー] Equi-ViT: Rotational Equivariant Vision Transformer for Robust Histopathology Analysis
Equi-ViTはGaussian Mixture Ring ConvolutionをViTのパッチ埋め込みに組み込み、回転等変 representationsを実現してロバストな病理組織分類を達成します。コロニカル癌データセットで回転頑健性において標準ViTおよびE(2) ViTを上回ります。
Vision Transformers (ViTs) have gained rapid adoption in computational pathology for their ability to model long-range dependencies through self-attention, addressing the limitations of convolutional neural networks that excel at local pattern capture but struggle with global contextual reasoning. Recent pathology-specific foundation models have further advanced performance by leveraging large-scale pretraining. However, standard ViTs remain inherently non-equivariant to transformations such as rotations and reflections, which are ubiquitous variations in histopathology imaging. To address this limitation, we propose Equi-ViT, which integrates an equivariant convolution kernel into the patch embedding stage of a ViT architecture, imparting built-in rotational equivariance to learned representations. Equi-ViT achieves superior rotation-consistent patch embeddings and stable classification performance across image orientations. Our results on a public colorectal cancer dataset demonstrate that incorporating equivariant patch embedding enhances data efficiency and robustness, suggesting that equivariant transformers could potentially serve as more generalizable backbones for the application of ViT in histopathology, such as digital pathology foundation models.
研究の動機と目的
- arbitrary orientation のヒストopathology画像のロバストな解析を動機付ける。
- パッチ埋め込みに組み込みの回転および反射等変性を持つViTバックボーンを開発する。
- 公開コロニカル癌データセットで回転頑健性とデータ効率を評価する。
- 非等変ViTおよび最先端等変パッチ埋め込みと比較する。
- 提案埋め込みの計算効率とパラメータ数を評価する。
提案手法
- ViTのパッチ埋め込みを2段階のGMR-Convベース埋め込みに置換し、回転/反射等変性を付与する。
- 分類ヘッドとしてHugging FaceのViT-Baseバックボーンを採用する。
- AdamW、コサインアニーリング、学習率5e-5、10エポック、バッチサイズ64、クロスエントロピー損失を用いて訓練する。
- 0–90°刻みで元データと回転データのテストセットを評価し、平均と標準偏差を報告する。
- 非等変ViTや他の等変手法(E(2)-ViT、GMR-R18等)と比較する。
実験結果
リサーチクエスチョン
- RQ1GMR-Convベースのパッチ埋め込みはトークン化の開始時点からViT特徴に回転および反射等変性を付与できるか?
- RQ2Equi-ViTは標準ViTおよび既存の等変ViTと比較して回転一貫性のある分類性能を向上させるか?
- RQ3Equi-ViTのモデルサイズ、メモリ使用量、回転頑健性のトレードオフはどうなるか?
- RQ4Equi-ViTのパッチ埋め込み等変性は画像回転時のトークンレベルの整列にどのように影響するか?
- RQ5Histopathologyタスクに対するCNNベースの等変モデルと比較してデータ効率はどうか?
主な発見
| Arch. | Model | #Param. | Memo. | Orig. | Rot. |
|---|---|---|---|---|---|
| CNN | R18 | 11.2M | 3.4G | 93.7 | 87.3 ± 5.1 |
| E(2)-WRN16 | 10.8M | 20.9G | 93.8 | 92.5 ± 3.5 | |
| GMR-R18 | 3.9M | 6.2G | 95.6 | 95.2 ± 0.2 | |
| ViT | ViT | 85M | 10.8G | 88.2 | 83.1 ± 6.9 |
| Conv ViT | 87M | 11.0G | 84.8 | 77.6 ± 7.3 | |
| E(2) ViT | 94M | 28.4G | 85.5 | 74.5 ± 5.1 | |
| Equi-ViT | 86M | 10.9G | 87.0 | 86.8 ± 0.6 |
- Equi-ViTは回転テストで86.8 ± 0.59の回転精度を達成し、Standard-ViTの83.1 ± 6.93およびConv ViTの77.6 ± 7.32を上回る。
- Equi-ViTはデータセットにおける回転頑健性でE(2)-ViT(74.5 ± 5.1)を上回る。
- GMR-Convを用いたパッチ埋め込みは回転を跨ぐほぼ完璧なトークン整列を生み出し、標準ViTのトークン特徴とは異なる。
- Equi-ViTの埋め込みモジュールは0.79Mパラメータ(3.0 MB)で、Conv ViTの埋め込み(2.4Mパラメータ、9.1 MB)よりメモリ効率が高い。
- アブレーションでは[6, 11]のGMR-Conv構成が最高の回転性能を示し、他のカーネルや純粋なConv埋め込みより優れる(86.8 ± 0.59)。
- Equi-ViTは全体精度でCNNベースの等変モデルを上回らない可能性がある。ViTのデータ要件とパラメータ化による影響が要因。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。