QUICK REVIEW

[論文レビュー] S3-CLIP: Video Super Resolution for Person-ReID

Endrei Tamás, György Cserey|arXiv (Cornell University)|Jan 13, 2026

Video Surveillance and Tracking Methods被引用数 0

ひとこと要約

S3-CLIPは、SwinIRベースの超解像とCLIPベースのReID目的を用いて、ビデオトラックを前処理することで跨視点照合を改善する、二段階訓練戦略を持つGANフリーのタスク駆動型ビデオ超解像フレームワークであり、特に地上から空撮への跨視点を改善する。

ABSTRACT

Tracklet quality is often treated as an afterthought in most person re-identification (ReID) methods, with the majority of research presenting architectural modifications to foundational models. Such approaches neglect an important limitation, posing challenges when deploying ReID systems in real-world, difficult scenarios. In this paper, we introduce S3-CLIP, a video super-resolution-based CLIP-ReID framework developed for the VReID-XFD challenge at WACV 2026. The proposed method integrates recent advances in super-resolution networks with task-driven super-resolution pipelines, adapting them to the video-based person re-identification setting. To the best of our knowledge, this work represents the first systematic investigation of video super-resolution as a means of enhancing tracklet quality for person ReID, particularly under challenging cross-view conditions. Experimental results demonstrate performance competitive with the baseline, achieving 37.52% mAP in aerial-to-ground and 29.16% mAP in ground-to-aerial scenarios. In the ground-to-aerial setting, S3-CLIP achieves substantial gains in ranking accuracy, improving Rank-1, Rank-5, and Rank-10 performance by 11.24%, 13.48%, and 17.98%, respectively.

研究の動機と目的

クロスビュー、解像度不一致シcenario（地上→空撮および空撮→地上）におけるReIDのビデオトラックの品質を動機づけ、課題を整理する。
敵対的トレーニングを用いず、ReID性能を向上させるビデオ超解像パイプラインを提案する。
SRとReIDを共同最適化しつつ時間的一貫性を維持するタスク駆動型の二段階訓練戦略を開発する。
DetReIDX上でアプローチを評価し、特にG→Aの跨視点マッチングにおける利得を定量化する。

提案手法

ReIDバックボーンを凍結した状態でSRネットワークを最適化する段階と、SRネットワークを固定してReIDバックボーンを最適化する段階の二段階訓練戦略を採用する。
SwinIRをSRモジュールとして用い、SINGに触発された半教師付きサンプリング regimeで低解像度ビデオトラックをアップサンプリングし、豊富な対にならばデータを必要とせずHR–LR対を作成する。
フレーム間の滑らかなSR出力を強制し、トラックレットの時間的アーティファクトを低減する時間的一貫性Lossを統合する。
CLIPベースのReIDバックボーン（VSLA-CLIP）を用い、プラットフォーム間ブリッジプロンプトで空撮と地表視点を整合させ、ドメインギャップを低減する。
ピクセル損失、タスク駆動型知覚損失、SRの時間損失、ReIDのv2sce、トリプレット、識別、画像→テキスト、テキスト→画像損失の組み合わせなどのオペレータ lossesを用いる。
提案手法S3-CLIPはSwinIRベースのSRモジュールと共に機能可能で、他のReIDバックボーンとも適合する。SINGサンプリング、SwinIR、SR4IR訓練概念に基づいて構成される。

実験結果

リサーチクエスチョン

RQ1地上と空撮カメラ間の極端な解像度ミスマッチがある場合、ビデオ超解像は跨視点人物ReIDを改善できるのか。
RQ2GANフリーのタスク駆動型SRアプローチは、誤解を招くアーティファクトを導入せず、識別に有用な詳細を回復できるのか。
RQ3二段階訓練 regimeは勾配の競合を緩和し、SRとReIDの共同最適化の収束を改善するのか。
RQ4SR前処理はDetReIDXにおける空撮-地上および地上-空撮のマッチング設定でRank-1、Rank-5、Rank-10、mAPにどのような影響を与えるのか。

主な発見

S3-CLIPは地上→空撮のマッチングで顕著な利得を達成し、G→Aプロトコルはベースラインと比較して特定の設定で最大でR1が11.24%、R10が17.98%改善を示す。
空撮→地上のマッチングでは、共同最適化バリアント S3-CLIP: S+I がベースラインに対して modestな利得（例: R1 +0.69%、R10 +1.12%、mAP +0.49%）を示し、単一ブランチ案も複数指標で改善を示す。
全体としてSR前処理は跨視点ReIDに実質的な利益をもたらし、特にクエリが地上でギャラリーが空撮である場合に解像度ミスマッチを低減するタスク駆動型SRの有用性を示す。
方法はベースラインに対して競争力のある結果を報告し、安定したアイデンティティ表現のためのビデオSRの時間的一貫性の重要性を検証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。