[论文解读] MultiGrain: a unified image embedding for classes and instances
MultiGrain 学习一个单一的图像嵌入,使用分类和实例检索目标共同训练,使图像分类和实例/拷贝检索具有强大性能,同时在测试时对分辨率与池化进行适应性调整。
MultiGrain is a network architecture producing compact vector representations that are suited both for image classification and particular object retrieval. It builds on a standard classification trunk. The top of the network produces an embedding containing coarse and fine-grained information, so that images can be recognized based on the object class, particular object, or if they are distorted copies. Our joint training is simple: we minimize a cross-entropy loss for classification and a ranking loss that determines if two images are identical up to data augmentation, with no need for additional labels. A key component of MultiGrain is a pooling layer that takes advantage of high-resolution images with a network trained at a lower resolution. When fed to a linear classifier, the learned embeddings provide state-of-the-art classification accuracy. For instance, we obtain 79.4% top-1 accuracy with a ResNet-50 learned on Imagenet, which is a +1.8% absolute improvement over the AutoAugment method. When compared with the cosine similarity, the same embeddings perform on par with the state-of-the-art for image retrieval at moderate resolutions.
研究动机与目标
- 开发一个单一的图像嵌入,支持类别级分类与实例级检索。
- 表明联合分类与实例检索训练可以提升分类准确性。
- 引入一种池化机制,利用高分辨率输入来提升分类和检索性能。
- 展示有效的训练策略,包括重复增强和灵活的测试时分辨率/池化设置。
提出的方法
- 从一个标准的分类干道开始(ResNet-50)。
- 添加GeM池化层以生成具有可控指数 p 的固定大小嵌入。
- 联合训练,使用分类的交叉熵损失和检索的边距/对比损失。
- 使用带有重复增强(RA)的批样本策略以增强检索信号。
- 训练后应用PCA whitening以支持检索,同时保持分类性能。
- 通过改变输入分辨率和GeM指数p*来实现测试时自适应,以平衡分类与检索。
实验结果
研究问题
- RQ1一个用分类和实例检索损失共同学习的单一嵌入,是否能在两项任务上都达到竞争性的性能?
- RQ2训练选择(批量、池化指数、分辨率)如何影响分类准确性与检索质量之间的权衡?
- RQ3在批次中进行重复增强是否在不损害分类性能的情况下提升检索信号?
- RQ4如何调整测试时的输入分辨率和池化指数以在两个任务中保持强劲的性能?
主要发现
- 在分辨率为500、p=3、lambda=0.5 时,使用 MultiGrain 的 ResNet-50 在 ImageNet 上达到 78.6% 的 top-1,超过基线并接近该设置的最新水平。
- 联合训练的嵌入比单任务基线提高了分类准确性(例如基线 76.2% 提升到在不同设置下的 76.9–78.6%)。
- 批次中的重复增强(RA)在分类准确性上带来可观提升(p=1 时+0.6%)。
- 在高分辨率适配下用 p=3 的GeM池化提供更好的定位并提升检索与分类。
- 测试时对池化指数 p* 的调整可让更大输入分辨率(如 500、800)在两项任务上带来收益,尽管非常大的尺度可能降低收益。
- PCA whitening 有助于对检索数据集的泛化,同时保留将嵌入用于分类的能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。