[論文レビュー] Zero-Shot Detection via Vision and Language Knowledge Distillation.
この論文では、CLIPのようなモデルからゼロショット画像分類能力を二段階オブジェクト検出器に知識蒸留するViLDという視覚・言語知識蒸留手法を提案している。領域埋め込みを画像およびテキスト埋め込みと整合させる。LVISではゼロショット検出で16.1 mask AP$_r$を達成し、教師ありベースラインを3.8ポイント上回り、PASCAL VOC、COCO、Objects365に対しても効果的に一般化している。
Zero-shot image classification has made promising progress by training the aligned image and text encoders. The goal of this work is to advance zero-shot object detection, which aims to detect novel objects without bounding box nor mask annotations. We propose ViLD, a training method via Vision and Language knowledge Distillation. We distill the knowledge from a pre-trained zero-shot image classification model (e.g., CLIP) into a two-stage detector (e.g., Mask R-CNN). Our method aligns the region embeddings in the detector to the text and image embeddings inferred by the pre-trained model. We use the text embeddings as the detection classifier, obtained by feeding category names into the pre-trained text encoder. We then minimize the distance between the region embeddings and image embeddings, obtained by feeding region proposals into the pre-trained image encoder. During inference, we include text embeddings of novel categories into the detection classifier for zero-shot detection. We benchmark the performance on LVIS dataset by holding out all rare categories as novel categories. ViLD obtains 16.1 mask AP$_r$ with a Mask R-CNN (ResNet-50 FPN) for zero-shot detection, outperforming the supervised counterpart by 3.8. The model can directly transfer to other datasets, achieving 72.2 AP$_{50}$, 36.6 AP and 11.8 AP on PASCAL VOC, COCO and Objects365, respectively.
研究の動機と目的
- 境界ボックスやマスクのアノテーションがなくても、新規カテゴリのオブジェクト検出を可能にするためにゼロショットオブジェクト検出を進める。
- 事前学習済みの視覚言語モデルを用いて、ゼロショット画像分類とオブジェクト検出のギャップを埋める。
- 画像とテキスト埋め込み間の整合性をオブジェクト検出器の特徴に転送する知識蒸留フレームワークを開発する。
- 再トレーニングを必要とせず、アノテーションデータがなくても検出器を新しいデータセットに直接適用可能にする。
提案手法
- 事前学習済みのCLIPに類似した画像・テキストエンコーダーから、マスクR-CNNのような二段階検出器へ知識を蒸留する。
- 事前学習済みのテキストエンコーダーから得たカテゴリ名のテキスト埋め込みを、検出器の分類ヘッドとして使用する。
- 検出器の領域埋め込みと、事前学習済みの画像エンコーダーからの画像埋め込みの間の距離を最小化することで、両者の整合性を図る。
- 推論時、新規カテゴリのテキスト埋め込みを分類ヘッドに挿入することで、ゼロショット検出を実現する。
- 領域埋め込みと対応する画像埋め込みの間の対照的損失を最小化することで検出器を訓練する。
- 境界ボックスやマスクのアノテーションを必要とせず、事前学習モデルの意味的理解を活用して検出器の学習を支援する。
実験結果
リサーチクエスチョン
- RQ1事前学習済みの視覚言語モデルからの知識蒸留が、ゼロショットオブジェクト検出性能を向上させることができるか?
- RQ2アノテーション付き学習データが一切ない状況でも、検出器が新規カテゴリにどれほど一般化できるか?
- RQ3事前学習済みの画像およびテキスト埋め込みと領域埋め込みを整合させることで、検出精度がどの程度向上するか?
- RQ4微調整なしに、COCO や PASCAL VOC といった多様なデータセットへ効果的に転送可能か?
主な発見
- ViLDは、マスクR-CNN(ResNet-50 FPN)を用いてLVISでゼロショット検出において16.1 mask AP$_r$を達成し、教師ありベースラインを3.8ポイント上回った。
- モデルは直接PASCAL VOCに一般化でき、COCOとObjects365ではそれぞれ72.2 AP$_{50}$、36.6 AP、11.8 APを達成した。
- 推論時に新規カテゴリのテキスト埋め込みを分類ヘッドに挿入することで、ゼロショット検出を実現した。
- 性能向上は、事前学習モデルの画像およびテキスト埋め込みと領域埋め込みの有効な整合性に起因する。
- 再トレーニングや追加のアノテーションなしに、複数のデータセットで強力なゼロショット一般化性能を示した。
- 結果から、事前学習済みの視覚言語モデルからの蒸留が、未学習カテゴリの検出性能を顕著に向上させることを示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。