[论文解读] The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition
本文提出了一种新颖的方法,通过利用噪声较大的网络来源数据和通用识别方法,在四个基准数据集上实现了最先进性能——在 CUB-200-2011 上达到 92.3% 的 top-1 准确率,在 Birdsnap 上达到 85.4%,在 FGVC-Aircraft 上达到 93.4%,在 Stanford Dogs 上达到 80.8%,且未使用这些数据集的任何人工标注训练标签,同时可扩展至超过 10,000 种鸟类和蝴蝶物种。
Current approaches for fine-grained recognition do the following: First, recruit experts to annotate a dataset of images, optionally also collecting more structured data in the form of part annotations and bounding boxes. Second, train a model utilizing this data. Toward the goal of solving fine-grained recognition, we introduce an alternative approach, leveraging free, noisy data from the web and simple, generic methods of recognition. This approach has benefits in both performance and scalability. We demonstrate its efficacy on four fine-grained datasets, greatly exceeding existing state of the art without the manual collection of even a single label, and furthermore show first results at scaling to more than 10,000 fine-grained categories. Quantitatively, we achieve top-1 accuracies of 92.3% on CUB-200-2011, 85.4% on Birdsnap, 93.4% on FGVC-Aircraft, and 80.8% on Stanford Dogs without using their annotated training sets. We compare our approach to an active learning approach for expanding fine-grained datasets.
研究动机与目标
- 解决传统细粒度识别方法依赖专家标注数据集所导致的可扩展性限制。
- 探究噪声较大的网络来源数据是否能在细粒度识别任务中超越筛选过的数据集。
- 实现在规模上的识别能力,将现有基准中仅数百种类别的限制扩展至超过 10,000 种物种。
- 比较纯网络数据训练与主动学习方法在数据收集方面的有效性。
提出的方法
- 使用类别名称作为查询,从网络搜索引擎收集图像,构建大规模、噪声较大的训练集。
- 应用基于相似度的去重方法,利用学习到的图像嵌入和汉明距离,去除近似重复的图像。
- 在去重后的网络来源数据上训练深度卷积神经网络,且不使用任何基准数据集的人工标注标签。
- 采用度量学习方法(类似于 Wang 等人 [64] 的方法),检测并移除与测试集图像过于相似的图像。
- 尽管缺乏原始训练标签,仍对标准基准数据集进行微调以评估性能。
- 使用梯度可视化分析特征学习过程,确认网络训练模型在判别性部位上的定位能力更强。
实验结果
研究问题
- RQ1仅使用噪声较大的网络来源数据,是否可以在不使用任何人工标注训练数据的情况下,实现细粒度图像识别的最先进性能?
- RQ2当仅使用网络数据进行训练时,与使用筛选过的数据集相比,其在标准基准上的性能表现如何?
- RQ3在仅使用网络数据的前提下,细粒度识别在多大程度上可以扩展至数千个类别?
- RQ4标签噪声和数据质量对模型泛化能力和性能的影响如何?
- RQ5从网络数据中学习到的表征,与从专家标注数据中学到的表征相比,在判别性特征学习方面有何差异?
主要发现
- 该模型在 CUB-200-2011 上达到 92.3% 的 top-1 准确率,且未使用其任何标注的训练图像,接近人类水平性能。
- 在 Birdsnap 上,模型达到 85.4% 的 top-1 准确率,超越了以往最先进结果,且未使用该数据集的任何训练标签。
- 在 FGVC-Aircraft 上,模型达到 93.4% 的 top-1 准确率,展现出在新且具有挑战性的细粒度数据集上的强大泛化能力。
- 在 Stanford Dogs 上,模型达到 80.8% 的 top-1 准确率,同样未依赖该数据集的原始训练集。
- 该方法成功扩展至超过 10,000 种鸟类和 14,000 种蝴蝶与蛾类物种,展示了前所未有的可扩展性。
- 梯度可视化显示,与在筛选数据上训练的模型相比,网络训练模型对判别性部位的关注更加集中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。