QUICK REVIEW

[論文レビュー] Annotation Free Spacecraft Detection and Segmentation using Vision Language Models

Samet Hiçsönmez, Jose Sosa|arXiv (Cornell University)|Feb 4, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

この論文は、事前学習済みの Vision Language Model を用いて未ラベルの空間画像から疑似ラベルを生成し、テスト時オーギュメンテーションと重み付きボックス融合で洗練させ、それらを軽量な学生モデルへ蒸留することで、手動ラベリングなしのオープンワールドな宇宙機検出・セグメンテーションを実現する注釈なしパイプラインを提案する。

ABSTRACT

Vision Language Models (VLMs) have demonstrated remarkable performance in open-world zero-shot visual recognition. However, their potential in space-related applications remains largely unexplored. In the space domain, accurate manual annotation is particularly challenging due to factors such as low visibility, illumination variations, and object blending with planetary backgrounds. Developing methods that can detect and segment spacecraft and orbital targets without requiring extensive manual labeling is therefore of critical importance. In this work, we propose an annotation-free detection and segmentation pipeline for space targets using VLMs. Our approach begins by automatically generating pseudo-labels for a small subset of unlabeled real data with a pre-trained VLM. These pseudo-labels are then leveraged in a teacher-student label distillation framework to train lightweight models. Despite the inherent noise in the pseudo-labels, the distillation process leads to substantial performance gains over direct zero-shot VLM inference. Experimental evaluations on the SPARK-2024, SPEED+, and TANGO datasets on segmentation tasks demonstrate consistent improvements in average precision (AP) by up to 10 points. Code and models are available at https://github.com/giddyyupp/annotation-free-spacecraft-segmentation.

研究の動機と目的

最小限の手動ラベリングで宇宙空間における宇宙機検出とセグメンテーションを動機づける。
事前学習済み Vision Language Model を活用して、未ラベルの実データに対して疑似ラベルを作成する。
ノイズの多い疑似ラベルから軽量な検出器を訓練する教師–生徒蒸留フレームワークを開発する。
インフェレンス対応の効率的なモデルを宇宙機搭載運用に適した形で提供する。

提案手法

固定テキストプロンプト spacecraft を用いた事前学習済み VLM で未ラベル実画像の疑似ラベルを生成する。
ノイズを低減するために、テスト時オーギュメンテーションと Weighted Box Fusion によって疑似ラベルを洗練する。
refined 疑似ラベルから知識蒸留を繰り返すことで軽量な生徒検出器を訓練する。
単一イテレーションで生徒を教師として再訓練または再ラベリングすることにより疑似ラベル品質を改善する。
蒸留された生徒モデルで推論を行い、リアルタイムの宇宙機検出とセグメンテーションを実現する。

実験結果

リサーチクエスチョン

RQ1手動アノテーションなしでゼロショットの Vision Language Model を正確な宇宙機検出・セグメンテーションに変換できるか。
RQ2疑似ラベルの洗練と蒸留が、空間データセットでの完全に監視された性能との差をどの程度縮められるか。
RQ3TTA、WBF、信頼度ベースのフィルタリングが疑似ラベルの品質と下流の検出器性能に与える影響は？

主な発見

ゼロショットの VLM は、ファインチューニングなしで SPARK-2024、SPEED+、TANGO で非自明な検出・セグメンテーション性能を提供する。
VLM の出力に対して TTA と WBF を適用すると AP の改善が一貫して得られ、特に複数データセットで AP75 の改善が見られる。
信頼度フィルタリングは TTA+WBF 後の下流検出器性能をさらに向上させる。
refined 疑似ラベルから蒸留された浅い生徒モデルは競争力のある結果を達成し、リアルタイム推論を可能にする。
反復蒸留（追加の再ラベリングステップ）は検出とセグメンテーションの指標で追加の利益をもたらす可能性がある。
3つの宇宙データセットで、提案パイプラインは完全に監視された Oracle パフォーマンスとの差を縮める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。