QUICK REVIEW

[论文解读] Strong but simple: A Baseline for Domain Generalized Dense Perception by CLIP-based Transfer Learning

Christoph Hümmer, Manuel Schwonberg|arXiv (Cornell University)|Dec 4, 2023

Domain Adaptation and Few-Shot Learning被引用 8

一句话总结

VLTSeg 使用 CLIP/EVA-CLIP 视觉-语言编码器与 Mask2Former 解码器，在语义分割的领域泛化方面达到 state-of-the-art，而不需要复杂的 DG 损失或输入增强。

ABSTRACT

Domain generalization (DG) remains a significant challenge for perception based on deep neural networks (DNNs), where domain shifts occur due to synthetic data, lighting, weather, or location changes. Vision-language models (VLMs) marked a large step for the generalization capabilities and have been already applied to various tasks. Very recently, first approaches utilized VLMs for domain generalized segmentation and object detection and obtained strong generalization. However, all these approaches rely on complex modules, feature augmentation frameworks or additional models. Surprisingly and in contrast to that, we found that simple fine-tuning of vision-language pre-trained models yields competitive or even stronger generalization results while being extremely simple to apply. Moreover, we found that vision-language pre-training consistently provides better generalization than the previous standard of vision-only pre-training. This challenges the standard of using ImageNet-based transfer learning for domain generalization. Fully fine-tuning a vision-language pre-trained model is capable of reaching the domain generalization SOTA when training on the synthetic GTA5 dataset. Moreover, we confirm this observation for object detection on a novel synthetic-to-real benchmark. We further obtain superior generalization capabilities by reaching 77.9% mIoU on the popular Cityscapes-to-ACDC benchmark. We also found improved in-domain generalization, leading to an improved SOTA of 86.4% mIoU on the Cityscapes test set marking the first place on the leaderboard.

研究动机与目标

为分割任务在训练阶段不可见的目标域引入领域泛化 (DG) 动机。
探究视觉-语言预训练（CLIP/EVA-CLIP）是否在 DG 方面优于仅视觉的预训练。
提出一个简单的迁移学习基线和一个 VL 指导的训练变体（VLTSeg），以提升 DG。
在合成到真实和真实到真实的基准上展示最先进的 DG 性能。
评估在域内的泛化能力并分析特征空间对齐。

提出的方法

将 CLIP/EVA-CLIP 视觉编码器作为语义分割的初始化，Mask2Former 作为解码器。
在一个简单的迁移学习设置中，使用标准分割损失（交叉熵、Dice、BCE）对整个网络进行微调。
提出 DenseCLIP 向的框架 VLTSeg，通过文本编码器引入视觉-语言指导，并引入一个辅助的 PTM 对齐损失，以为解码器产生联合视觉-语言嵌入。
用 Mask2Former 作为分割头替换 DenseCLIP FPN，并用 EVA-CLIP 初始化编码器以最大化域泛化。
优化 VLTSeg 目标函数 L_VLTSeg = L_PTM + L_M2F，其中 L_PTM 为辅助的提示文本匹配损失，L_M2F 为 Mask2Former 的分割损失。
在合成到真实（GTA5、SYNTHIA）和真实到真实（Cityscapes、BDD100k、Mapillary、ACDC）场景下进行评估，报告 mIoU 与 rPD 指标。

实验结果

研究问题

RQ1视觉-语言预训练（CLIP/EVA-CLIP）是否能提供相较于仅视觉预训练的更优的语义分割领域泛化？
RQ2在下游训练阶段整合视觉-语言指引流是否能在不使用复杂增强或 whitening 损失的情况下改善 DG？
RQ3从合成域到真实域以及跨多个真实目标域，DG 有何提升？
RQ4VLTSeg 在 Cityscapes→ACDC 与 Cityscapes→Cityscapes 的域内设置相较于先前的 SOTA 表现如何？
RQ5编码器初始化（CLIP vs EVA-CLIP）与 PTM 损失对 DG 性能有何影响？

主要发现

DG Method	mIoU CS val	mIoU BDD val	mIoU MV val	mIoU ACDC val	DG mean
VLTSeg (Ours) GTA5→	65.6	58.4	66.5	63.5	63.5
VLTSeg (Ours) SYNTHIA→	56.8	50.5	54.5	53.9	53.9

VLTSeg 相较于 prior SOTA 在 GTA5→Cityscapes 的绝对 mIoU 提升 7.6%，在 Cityscapes→ACDC 的提升为 6.93%。
VLTSeg 在 Cityscapes→ACDC 达到 76.48% mIoU（提交时的 SOTA），比之前的无监督 DG 高 6.93%，并在排行榜第一。
VLTSeg 在 Cityscapes 测试集的域内 mIoU 达到 86.1%，在排行榜上并列第一。
视觉-语言预训练（EVA-CLIP 初始化）提供显著的 DG 增益：EVA-CLIP 相比 CLIP 提升 +8.2%，且两者均优于仅视觉与 SAM 基线。
真实到真实的结果显示与多组真实数据集相比，VLTSeg 在 DG 平均与 rPD 上的表现优于 SegFormer、SAM-ViT+M2F 及 HGFormer。
在合成到真实的迁移中，VLTSeg 在 DG 平均上的绝对 mIoU 比 HRDA 高 7.6%，在 SYNTHIA 上高 5.2%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。