QUICK REVIEW

[论文解读] Large-scale Landmark Retrieval/Recognition under a Noisy and Diverse Dataset

Kohei Ozaki, Shuhei Yokoo|arXiv (Cornell University)|Jun 10, 2019

Forensic Anthropology and Bioarchaeology Studies参考文献 22被引用 28

一句话总结

本文提出了一种针对噪声大、多样性高的 Google-Landmarks-v2 数据集的鲁棒深度学习系统，用于大规模地标检索与识别。通过结合基于空间验证的自动化数据清洗方法与判别性重排序策略，作者在 2019 年 Google 地标检索挑战赛中获得第一名，并在识别赛道中获得第三名，相较于原始数据集上的基线模型，性能显著提升。

ABSTRACT

The Google-Landmarks-v2 dataset is the biggest worldwide landmarks dataset characterized by a large magnitude of noisiness and diversity. We present a novel landmark retrieval/recognition system, robust to a noisy and diverse dataset, by our team, smlyaka. Our approach is based on deep convolutional neural networks with metric learning, trained by cosine-softmax based losses. Deep metric learning methods are usually sensitive to noise, and it could hinder to learn a reliable metric. To address this issue, we develop an automated data cleaning system. Besides, we devise a discriminative re-ranking method to address the diversity of the dataset for landmark retrieval. Using our methods, we achieved 1st place in the Google Landmark Retrieval 2019 challenge and 3rd place in the Google Landmark Recognition 2019 challenge on Kaggle.

研究动机与目标

解决在大规模、噪声大且高度多样的数据集（如 Google-Landmarks-v2）上训练可靠地标检索与识别模型的挑战。
通过自动清洗训练数据，减少噪声样本与分布外样本，提升模型的泛化能力与鲁棒性。
通过一种新颖的重排序策略，缓解地标图像中视觉多样性（如同一地标的室内与室外视图）的影响。
在 2019 年 Google 地标挑战赛的检索与识别赛道中均实现最先进性能。

提出的方法

使用 k-最近邻搜索与基于 RANSAC 和 DELF 特征的空间验证，构建自动化数据清洗流水线，以过滤噪声训练样本。
采用判别性重排序方法，利用训练集优化检索结果，通过改进查询图像与候选图像之间的相似性估计。
使用 ArcFace 与 CosFace 搭建深度度量学习模型，采用余弦软max损失函数，并通过余弦退火的随机梯度下降进行优化。
采用 GeM 池化（p=3.0）与一维批量归一化，以增强特征表示能力与泛化性能。
通过空间验证与基于频率的置信度抑制进行后处理，结合多个模型的集成，以减少误报。
在训练过程中应用硬样本与软样本数据增强，以提升模型鲁棒性与泛化能力。

实验结果

研究问题

RQ1如何使深度度量学习模型对大规模地标数据集中的噪声具备鲁棒性？
RQ2自动化数据清洗在噪声大、真实世界场景的复杂数据集（如 Google-Landmarks-v2）上，能在多大程度上提升性能？
RQ3判别性重排序方法是否能有效应对地标图像中视觉多样性带来的检索挑战？
RQ4集成学习与置信度校准技术在提升复杂地标基准上的识别准确率方面，发挥何种作用？

主要发现

所提出的自动化数据清洗流程将训练集从 410 万张图像减少至 190 万张，显著提升了模型性能。
使用清洗后的数据集，最佳单模型在公开测试集上的 mAP@100 达到 29.42，在私有测试集上达到 31.80，表现优异。
判别性重排序方法将 mAP@100 提升至 35.69（公开）与 37.23（私有），较基线集成模型提升超过 5 个百分点。
在识别挑战中，最终模型流程在公开集上取得 0.3066 的 GAP 分数，在私有集上为 0.3630，获得第三名。
对频繁出现的干扰类别（如花朵、人像）的置信度分数进行抑制后处理，显著提升了 GAP 分数。
在软投票中结合空间验证与模型集成，使识别性能相对提升了 10%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。