[論文レビュー] Strong but simple: A Baseline for Domain Generalized Dense Perception by CLIP-based Transfer Learning
VLTSegは、CLIP/EVA-CLIP視覚言語エンコーダとMask2Formerデコーダを組み合わせ、複雑なDG損失や入力データ拡張を用いずに、セマンティックセグメンテーションの最先端ドメイン一般化を達成します。
Domain generalization (DG) remains a significant challenge for perception based on deep neural networks (DNNs), where domain shifts occur due to synthetic data, lighting, weather, or location changes. Vision-language models (VLMs) marked a large step for the generalization capabilities and have been already applied to various tasks. Very recently, first approaches utilized VLMs for domain generalized segmentation and object detection and obtained strong generalization. However, all these approaches rely on complex modules, feature augmentation frameworks or additional models. Surprisingly and in contrast to that, we found that simple fine-tuning of vision-language pre-trained models yields competitive or even stronger generalization results while being extremely simple to apply. Moreover, we found that vision-language pre-training consistently provides better generalization than the previous standard of vision-only pre-training. This challenges the standard of using ImageNet-based transfer learning for domain generalization. Fully fine-tuning a vision-language pre-trained model is capable of reaching the domain generalization SOTA when training on the synthetic GTA5 dataset. Moreover, we confirm this observation for object detection on a novel synthetic-to-real benchmark. We further obtain superior generalization capabilities by reaching 77.9% mIoU on the popular Cityscapes-to-ACDC benchmark. We also found improved in-domain generalization, leading to an improved SOTA of 86.4% mIoU on the Cityscapes test set marking the first place on the leaderboard.
研究の動機と目的
- セグメンテーションのターゲットドメインがトレーニング時に見られない場合のDGを動機づける。
- 視覚言語事前学習(CLIP/EVA-CLIP)が、視覚のみの事前学習よりDGを改善するかを調査する。
- 単純な転移学習ベースラインとVLガイダンス学習変種(VLTSeg)を開発してDGを改善する。
- synthetic-to-realおよびreal-to-realベンチマークで最先端のDG性能を示す。
- インドメイン内一般化能力を評価し、特徴空間の整合性を分析する。
提案手法
- Mask2Formerをデコーダとして使用する前提で、CLIP/EVA-CLIP視覚エンコーダをセマンティックセグメンテーションの初期化として用いる。
- 標準的なセグメンテーション損失(クロスエントロピー、Dice、BCE)を用いた直接的な転移学習設定でネットワーク全体をファインチューニングする。
- VLTSegを導入。DenseCLIP風のフレームワークで、テキストエンコーダと補助的なPTM整列損失を介して視覚と言語のガイダンスを統合し、デコーダのための共同視覚言語埋め込みを生成する。
- DenseCLIPのFPNをSegmentation headとしてMask2Formerに置換し、エンコーダをEVA-CLIPで初期化してドメイン一般化を最大化する。
- VLTSeg目的関数L_VLTSeg = L_PTM + L_M2Fを最適化。L_PTMは補助的なプロンプト-テキスト一致損失、L_M2FはMask2Formerのセグメンテーション損失。
- synthetic-to-real(GTA5, SYNTHIA)および real-to-real(Cityscapes, BDD100k, Mapillary, ACDC)の設定で評価し、mIoUとrPD指標を報告する。
実験結果
リサーチクエスチョン
- RQ1視覚言語事前学習(CLIP/EVA-CLIP)によって、視覚のみの事前学習と比較してセマンティックセグメンテーションのドメイン一般化が優れているか。
- RQ2下流訓練時に視覚言語ガイダンスストリームを統合することで、複雑なデータ拡張やホワイトニング損失なしでDGが改善されるか。
- RQ3合成ドメインから実ドメインへ転送し、複数の実データセット間でDGがどの程度向上するか。
- RQ4Cityscapes→ACDCおよびCityscapes→Cityscapesのインドメイン設定で、従来のSOTAと比較してVLTSegはどう性能を示すか。
- RQ5エンコーダ初期化(CLIP vs EVA-CLIP)とPTM損失がDG性能に及ぼす影響は何か。
主な発見
| DG Method | mIoU CS val | mIoU BDD val | mIoU MV val | mIoU ACDC val | DG mean |
|---|---|---|---|---|---|
| VLTSeg (Ours) GTA5→ | 65.6 | 58.4 | 66.5 | 63.5 | 63.5 |
| VLTSeg (Ours) SYNTHIA→ | 56.8 | 50.5 | 54.5 | 53.9 | 53.9 |
- VLTSegは、GTA5→Cityscapesでの絶対mIoUを7.6%、Cityscapes→ACDCでの絶対値を6.93%上回り、DG性能を大幅に改善した。
- VLTSegはCityscapes→ACDCで76.48%のmIoUを達成(提出時のSOTA)、従来の非教師ありDGを6.93%上回り、リーダーボードで1位。
- VLTSegはインドメインのCityscapesテストで86.1%のmIoUを達成し、リーダーボードで同率1位。
- 視覚言語事前学習(EVA-CLIP初期化)はDGの大きな利得を提供:EVA-CLIPはCLIPに対して+8.2%をもたらし、両者とも視覚のみおよびSAMベースラインより上回る。
- リアル-to-リアルの結果は、SegFormer、SAM-ViT+M2F、HGFormerと比較して複数の実データセットでDG平均とrPDが高いことを示す。
- synthetic-to-real転送では、GTA5でDG平均のmIoUがHRDAを7.6%絶対上回り、SYNTHIAでは5.2%上回った。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。