QUICK REVIEW

[論文レビュー] Learning to "Segment Anything" in Thermal Infrared Images through Knowledge Distillation with a Large Scale Dataset SATIR

Junzhang Chen, Xiangzhi Bai|arXiv (Cornell University)|Apr 17, 2023

COVID-19 diagnosis using AI被引用数 10

ひとこと要約

論文は Segment Anything Model (SAM) を用いて前訓練用の擬似ラベルを生成し、熱赤外線分割モデルを前訓練する SATIR（100k+ 画像）を作成し、知識蒸留によって SODA 実データセットの分割性能を向上させる。

ABSTRACT

The Segment Anything Model (SAM) is a promptable segmentation model recently introduced by Meta AI that has demonstrated its prowess across various fields beyond just image segmentation. SAM can accurately segment images across diverse fields, and generating various masks. We discovered that this ability of SAM can be leveraged to pretrain models for specific fields. Accordingly, we have proposed a framework that utilizes SAM to generate pseudo labels for pretraining thermal infrared image segmentation tasks. Our proposed framework can effectively improve the accuracy of segmentation results of specific categories beyond the SOTA ImageNet pretrained model. Our framework presents a novel approach to collaborate with models trained with large data like SAM to address problems in special fields. Also, we generated a large scale thermal infrared segmentation dataset used for pretaining, which contains over 100,000 images with pixel-annotation labels. This approach offers an effective solution for working with large models in special fields where label annotation is challenging. Our code is available at https://github.com/chenjzBUAA/SATIR

研究の動機と目的

SAM のような大規模モデルを用いて専門分野の分割モデルを前訓練する動機付け。
SAM マスクを熱IRデータの擬似ラベルへ変換する知識蒸留フレームワークを提案。
前訓練用のピクセルレベルの注釈を持つ大規模 SATIR データセットを作成。
実データ熱IRデータセット（SODA）で分割性能の改善を示す。

提案手法

unlabeled thermal IR 画像に SAM を適用して点/領域プロンプトでマスクを生成。
SAM マスクをランク付けし上位マスクにカテゴリインデックスを割り当てて擬似ラベルを構築。
擬似ラベル付けされた SATIR データセットを用いて分割モデルを前訓練し、事前訓練済みモデルを得る。
事前訓練済みモデルをターゲット熱IR分割タスクでファインチューニング。
SegFormer を backbone として SODA 実データサブセットでアプローチを評価。
前訓練なしおよび ImageNet 前訓練ベースラインと比較。

Figure 1: Overview of our proposed method for pretraining thermal infrared image segmentation using knowledge distillation from the Segment Anything Model (SAM) to generate pseudo labels.

実験結果

リサーチクエスチョン

RQ1SAM 生成マスクは熱IR分割モデルの前訓練に有用な擬似ラベルを提供できるか。
RQ2SAM からの知識蒸留は標準的な前訓練を超えて熱IRデータの分割性能を改善するか。
RQ3SATIR 前訓練は ImageNet 前訓練と比較して下流の性能にどのような影響を与えるか。
RQ4熱IR 前訓練データセットは実世界のターゲットで利得を生むにはどれくらい大規模かつ多様であるべきか。

主な発見

Pretraining	Backbone	mIoU	Fβ^ω
-	SegFormer	0.6514	0.8156
ImageNet	SegFormer	0.6775	0.8374
SATIR	SegFormer	0.6906	0.8426

SATIR 事前訓練済み SegFormer は SODA 実データサブセットで no-pretrain および ImageNet 前訓練ベースラインより高い mIoU および Fβω を達成する。
mIoU は 0.6514 (no pretrain) および 0.6775 (ImageNet) から SATIR で 0.6906 に改善。
Fβω は 0.8156 (no pretrain) および 0.8374 (ImageNet) から SATIR で 0.8426 に改善。
本フレームワークは大規模モデルの知識が専門領域の前訓練に利益をもたらすことを示しており、粗いマスクラベル付けでも有効である。
SATIR には SAM マスクで生成されたピクセルレベルの擬似ラベルを含む 100k 以上の熱IR画像がある。

Figure 2: The proposed framework consists of three steps: (a) construction of a pretrained dataset using SAM, (b) pretraining of the model with the dataset, and (c) finetuning the pretrained model on the target task.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。