[论文解读] Domain Generalization for Object Recognition with Multi-task Autoencoders
该论文提出多任务自编码器(MTAE)及其去噪变体(D-MTAE),通过重建自然发生的域间差异来学习域不变特征,实现目标识别中的域泛化。该方法在跨数据集识别基准上优于先前的最先进模型,在VLCS和Office+Caltech数据集上实现了最先进性能,通过在特征学习过程中显式建模域间外观变换实现。
The problem of domain generalization is to take knowledge acquired from a number of related domains where training data is available, and to then successfully apply it to previously unseen domains. We propose a new feature learning algorithm, Multi-Task Autoencoder (MTAE), that provides good generalization performance for cross-domain object recognition. Our algorithm extends the standard denoising autoencoder framework by substituting artificially induced corruption with naturally occurring inter-domain variability in the appearance of objects. Instead of reconstructing images from noisy versions, MTAE learns to transform the original image into analogs in multiple related domains. It thereby learns features that are robust to variations across domains. The learnt features are then used as inputs to a classifier. We evaluated the performance of the algorithm on benchmark image recognition datasets, where the task is to learn features from multiple datasets and to then predict the image label from unseen datasets. We found that (denoising) MTAE outperforms alternative autoencoder-based models as well as the current state-of-the-art algorithms for domain generalization.
研究动机与目标
- 解决测试数据来自未见域时因数据集偏差导致的目标识别泛化能力差的问题。
- 克服标准自编码器及现有域泛化方法在缺乏目标域数据时无法泛化的局限性。
- 开发一种特征学习框架,隐式学习对真实世界变化(如视角、光照、尺度)的不变性,这些变化跨越不同域。
- 通过在多个源域上使用多任务重建目标进行训练,提升在未见数据集上的泛化性能。
- 证明将自然域变化建模为重建目标,相比去噪自编码器中的人工噪声,能带来更好的鲁棒性。
提出的方法
- 训练一个多任务自编码器(MTAE),其中每个任务对应在不同域中重建输入图像,利用自然发生的域间差异作为监督信号。
- 将去噪自编码器中的人工破坏替换为真实的域变换(如旋转、缩放、光照变化)作为破坏信号。
- 使用共享编码器从输入图像中提取特征,随后通过多个特定于域的解码器,在每个目标域中重建图像。
- 通过最小化所有域中原始图像与重建图像之间的差异,优化模型的重建损失。
- 引入一种去噪变体(D-MTAE),对重建图像应用去噪准则,增强对自然图像变化的鲁棒性。
- 使用MTAE提取的共享特征对最终分类器进行微调,实现对未见域的零样本泛化。
实验结果
研究问题
- RQ1将自然域变化建模为重建目标,是否相比人工噪声能更有效地提升在未见域上的特征泛化能力?
- RQ2使用特定于域的重建头进行多任务学习,是否相比标准自编码器或度量学习方法能学习到更具不变性的特征?
- RQ3所提出的MTAE方法在跨数据集识别任务中,与Undo-Bias、UML和LRE-SVM等最先进域泛化模型相比表现如何?
- RQ4MTAE的去噪变体(D-MTAE)是否能进一步提升鲁棒性和泛化性能?
- RQ5通过MTAE学习的共享特征在VLCS和Office+Caltech等基准数据集上,在多大程度上减少了数据集偏差?
主要发现
- 在VLCS数据集上,D-MTAE在四个跨域场景中的平均准确率均高于所有先前最先进方法,达到最高水平。
- 在Office+Caltech数据集上,D-MTAE+1HNN在四个跨域场景中的两个中表现最佳,其余两个中排名第二,平均性能优于LRE-SVM。
- 使用标准DeCAF-6特征时,真实准确率与跨域性能之间的差距超过14%,证实了显著的数据集偏差存在。
- 即使未使用显式的目标域数据,MTAE和D-MTAE也显著减少了该偏差,证明了其有效的域泛化能力。
- 尽管在数据集间共享类别极少(VLCS中仅5个共享类别),该方法仍实现了最先进性能,表明其具备强大的不变性学习能力。
- 消融实验表明,D-MTAE始终优于标准MTAE,证实了去噪准则在处理自然图像变化方面的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。