[論文レビュー] COVID-VIT: Classification of COVID-19 from CT chest images based on vision transformer models
本論文はCT胸部画像から COVID-19 を分類する際、Vision Transformer (ViT) と DenseNet を比較し、検証データで F1 において ViT が優れていることを示している。
This paper is responding to the MIA-COV19 challenge to classify COVID from non-COVID based on CT lung images. The COVID-19 virus has devastated the world in the last eighteen months by infecting more than 182 million people and causing over 3.9 million deaths. The overarching aim is to predict the diagnosis of the COVID-19 virus from chest radiographs, through the development of explainable vision transformer deep learning techniques, leading to population screening in a more rapid, accurate and transparent way. In this competition, there are 5381 three-dimensional (3D) datasets in total, including 1552 for training, 374 for evaluation and 3455 for testing. While most of the data volumes are in axial view, there are a number of subjects' data are in coronal or sagittal views with 1 or 2 slices are in axial view. Hence, while 3D data based classification is investigated, in this competition, 2D images remains the main focus. Two deep learning methods are studied, which are vision transformer (ViT) based on attention models and DenseNet that is built upon conventional convolutional neural network (CNN). Initial evaluation results based on validation datasets whereby the ground truth is known indicate that ViT performs better than DenseNet with F1 scores being 0.76 and 0.72 respectively. Codes are available at GitHub at .
研究の動機と目的
- 人口スクリーニングのための胸部CT画像からのCOVID-19診断を迅速かつ説明可能に行う。
- ViTベースの手法を従来のCNN(DenseNet)と比較するCOVID vs 非COVID分類。
- 実用性と性能に焦点を当て、3D CTデータセットを活用しつつ、2Dスライスベースの分類に焦点を当てる。
提案手法
- 胸部CTスライスからCOVID-19を分類するためにViTおよびDenseNetアーキテクチャを使用する。
- 3Dボリュームとスライスを混在させたデータセットで性能を評価する(2D画像を重視)。
- 検証データのF1スコアを報告してモデルを比較する(ViT対DenseNet)。
- 再現性のためGitHubでコード公開。
実験結果
リサーチクエスチョン
- RQ1CT胸部画像からのCOVID-19分類において、検証データでViTはDenseNetを上回るか?
- RQ2このタスクにおけるViTとDenseNetのF1スコアの比較はどうなるか?
- RQ3評価設定でこの分類における2DスライスベースのCTデータと3Dデータの有効性はどの程度か?
- RQ4この手法は説明可能で、実際の人口スクリーニングに適しているか?
主な発見
- ViT は検証データで F1 スコア 0.76、DenseNet の 0.72 を上回る。
- 本研究は総計 5,381 の3Dデータセットを使用し、訓練 1,552 件、評価 374 件、テスト 3,455 件。
- データボリュームの大半は軸位だが、冠状面や矢状面ビューを含む被験者もあり、1–2 枚の軸位スライスを含むことがある;2D画像が主な焦点。
- COVID-ViT アプローチのコードは GitHub に公開。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。