[論文レビュー] Hibou: A Family of Foundational Vision Transformers for Pathology
HibouはDINOv2を使って大規模な histopathology データセットで2つの視覚トランスフォーマーモデル(Hibou-Bと Hibou-L)を pretrain し、パッチレベルおよびスライドレベルの最先端性能を達成。Hibou-L が データセット間の平均でリードし、 Hibou-B は 公開リリース。
Pathology, the microscopic examination of diseased tissue, is critical for diagnosing various medical conditions, particularly cancers. Traditional methods are labor-intensive and prone to human error. Digital pathology, which converts glass slides into high-resolution digital images for analysis by computer algorithms, revolutionizes the field by enhancing diagnostic accuracy, consistency, and efficiency through automated image analysis and large-scale data processing. Foundational transformer pretraining is crucial for developing robust, generalizable models as it enables learning from vast amounts of unannotated data. This paper introduces the Hibou family of foundational vision transformers for pathology, leveraging the DINOv2 framework to pretrain two model variants, Hibou-B and Hibou-L, on a proprietary dataset of over 1 million whole slide images (WSIs) representing diverse tissue types and staining techniques. Our pretrained models demonstrate superior performance on both patch-level and slide-level benchmarks, surpassing existing state-of-the-art methods. Notably, Hibou-L achieves the highest average accuracy across multiple benchmark datasets. To support further research and application in the field, we have open-sourced the Hibou models, which can be accessed at https://github.com/HistAI/hibou.
研究の動機と目的
- デジタル病理における foundation model と self-supervised pretraining を用いた一般化の向上を動機付ける。
- ViT アーキテクチャに基づく Hibou-B および Hibou-L の2つのモデル変種を開発・比較する。
- 多様な histopathology データセットで patch- および slide-level タスクに対する Hibou の頑健性と転移性を示す。
- 再現性とコミュニティ主導の開発を加速するための Hibou-B のオープンソース化を実証する。
提案手法
- Hibou-B (ViT-B/14) および Hibou-L (ViT-L/14) を DINOv2 で事前学習させる。データセットは 936,441 H&E と 202,464 non-H&E スライドを含む 306,400 件の症例から構成される独自データセット。
- WSI から非重複パッチを作成し、背景を Otsu thresholding でフィルタリング、トレーニング用の組織パッチをランダムにサンプリング。
- データ拡張を適用(ランダム回転、反転、RandStainNA、カラー ジッタ)し、RandStainNA を用いて染色堅牢性を histology タスク向けに強化。
- ウェイトをランダムに初期化し、Hibou-B を 8 A100 GPU でトレーニング(バッチサイズ 1024、500k iterations)、Hibou-L を 32 A100 GPU でトレーニング(バッチサイズ 1024、1.175M iterations)。
- パッチレベルの線形プロービングを6つの公開データセットで評価し、凍結特徴抽出器と学習可能なプーリングモジュールを用いたスライドレベルの弱教師付き分類を実施。
- 公開ベースライン(Phikon, Kaiko-B8, Virchow, RudolfV, Prov-GigaPath)と比較し、データセット全体で top-1 精度と AUC 指標を報告。

実験結果
リサーチクエスチョン
- RQ1Hibou-B および Hibou-L は diverse データセットにおけるパッチレベルの組織タイプ分類でどのように性能を示すか?
- RQ2事前学習データが proprietary である場合、 Hibou モデルは見知らぬ public histopathology データセット に一般化できるか?
- RQ3Hibou-L はパッチレベルのベンチマークやスライドレベルのサブタスクで従来の最先端手法を上回ることができるか?
- RQ4モデルサイズと事前学習データの規模が histopathology foundation model の性能に与える影響はどの程度か?
- RQ5Hibou-B はアーキテクチャとライセンスを踏まえ、オープンな研究および実践的用途に適しているか?
主な発見
| Dataset | Phikon | Kaiko-B8 | Virchow | RudolfV | Prov-GigaPath | Hibou-B | Hibou-L |
|---|---|---|---|---|---|---|---|
| CRC-100K | 0.917 | 0.949 | 0.968* | 0.973* | 0.968 | 0.955 | 0.966 |
| PCAM | 0.916 | 0.919 | 0.933* | 0.944* | 0.947 | 0.946 | 0.943 |
| MHIST | 0.791 | 0.832 | 0.834* | 0.821* | 0.839 | 0.812 | 0.849 |
| MSI-CRC | 0.750 | 0.786 | - | 0.755* | 0.771 | 0.779 | 0.797 |
| MSI-STAD | 0.760 | 0.814 | - | 0.788* | 0.784 | 0.797 | 0.825 |
| TIL-DET | 0.944 | 0.945 | - | 0.943* | 0.939 | 0.942 | 0.943 |
| AVG (1-3) | 0.875 | 0.900 | 0.912 | 0.913 | 0.918 | 0.904 | 0.919 |
| AVG (1-6) | 0.846 | 0.874 | - | 0.871 | 0.875 | 0.872 | 0.887 |
- Hibou-L は6つのパッチレベルデータセットで最も高い平均精度を達成し、いくつかの state-of-the-art モデルを上回った。
- パッチレベルのベンチマークでは、Hibou-L は競合手法を一貫して上回り、報告データセットの平均 top-1 精度は 0.919( Hibou-B は 0.904)、平均。
- Hibou-B および Hibou-L はスライドレベルの性能も高く、Hibou-L は TCGAベースのテストで BRCA、NSCLC、RCC データセットそれぞれで最高の AUC を達成した(0.946、0.969、0.996 )。
- Hibou-L は一部のベースラインよりも少ないパラメータでより優れたパッチレベル特徴を提供しており、WSIs の効率的な表現学習を示している。
- Hibou-B は再現性とコミュニティ主導の研究を支援するために Apache 2.0 の下で公開された。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。