Skip to main content
QUICK REVIEW

[论文解读] Learning Deep Embeddings with Histogram Loss

Evgeniya Ustinova, Victor Lempitsky|arXiv (Cornell University)|Nov 2, 2016
Human Pose and Action Recognition参考文献 30被引用 260
一句话总结

本论文提出一种参数无关的 Histogram Loss,通过在批内估计正负对相似度分布并通过直方图来学习深度嵌入,并通过反向传播最小化它们的重叠。在多个数据集上无需调整边距或阈值即可实现具有竞争力或更优的性能。

ABSTRACT

We suggest a loss for learning deep embeddings. The new loss does not introduce parameters that need to be tuned and results in very good embeddings across a range of datasets and problems. The loss is computed by estimating two distribution of similarities for positive (matching) and negative (non-matching) sample pairs, and then computing the probability of a positive pair to have a lower similarity score than a negative pair based on the estimated similarity distributions. We show that such operations can be performed in a simple and piecewise-differentiable manner using 1D histograms with soft assignment operations. This makes the proposed loss suitable for learning deep embeddings using stochastic optimization. In the experiments, the new loss performs favourably compared to recently proposed alternatives.

研究动机与目标

  • 提出一种鲁棒的嵌入损失,尽量减少对可调边距或阈值的依赖。
  • 提出一种两阶段的基于直方图的方法来估计正负相似度分布。
  • 通过通过基于直方图的损失进行反向传播实现对嵌入的可微优化。
  • 通过在多样化的图像嵌入数据集上进行评估并与最先进的损失方法进行比较,展示其广泛适用性。

提出的方法

  • 使用一维直方图和线性插值,在一个批次内估计正负对的相似度分布。
  • 作为对估计分布的积分,计算一个随机负样本对比一个随机正样本对具有更高相似度的概率。
  • 将直方图损失 L 定义为期望的反向概率,可计算为 L = sum_r h^{-}_r phi^{+}_r,其中 phi^{+}_r 是 h^{+} 的累积和。
  • 通过直方图构造进行反向传播,以获得相对于 s_{ij} 的梯度,从而得到网络参数。
  • 将直方图箱数视为唯一的可调参数,显示出对数据的低敏感性与独立性。

实验结果

研究问题

  • RQ1参数无关的基于直方图的损失是否能够在不同数据集的嵌入空间中有效区分正负对?
  • RQ2直方图大小(箱数)和批量大小如何影响嵌入质量和收敛?
  • RQ3在标准嵌入基准上,Histogram Loss 是否优于最先进的成对和三元/四元组损失?
  • RQ4在保持可微分性和训练效率的同时,该方法是否可扩展到大数据集?

主要发现

  • Histogram Loss 在 CUB-200-2011、Online Products、CUHK03 和 Market-1501 数据集上,与 Binomial Deviance、LSSS 和 Triplet 损失相比,在 recall@K 方面具有竞争力。
  • 在 CUHK03 和 Market-1501 上,Histogram Loss 在行人再识别任务中超越了竞争损失。
  • 对于 CUB-200-2011 和 Online Products,Histogram Loss 与最佳 Binomial Deviance 结果非常接近(在合适的 C 参数下)。
  • Histogram Loss 一致地优于提升结构化 Softmax(LSSS)基于三元组的损失。
  • 较大的批量大小(例如 256)通常在多个数据集上带来更好的 Recall@K。
  • 该方法除了直方图箱数和标准优化设置(如 ADAM)之外,几乎不需要调参。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。