[论文解读] Modeling Uncertainty with Hedged Instance Embedding
该论文提出Hedged Instance Embedding(HIB),一种随机方法,通过将图像嵌入建模为概率分布来捕捉输入不确定性(如遮挡或模糊)——即在潜在空间的合理区域间分配概率质量。HIB通过变分信息瓶颈(VIB)与可学习边距的软对比损失进行训练,提升了在模糊输入下的下游识别与验证性能,并提供了与任务准确率相关的每个样本的不确定性度量。
Instance embeddings are an efficient and versatile image representation that facilitates applications like recognition, verification, retrieval, and clustering. Many metric learning methods represent the input as a single point in the embedding space. Often the distance between points is used as a proxy for match confidence. However, this can fail to represent uncertainty arising when the input is ambiguous, e.g., due to occlusion or blurriness. This work addresses this issue and explicitly models the uncertainty by hedging the location of each input in the embedding space. We introduce the hedged instance embedding (HIB) in which embeddings are modeled as random variables and the model is trained under the variational information bottleneck principle. Empirical results on our new N-digit MNIST dataset show that our method leads to the desired behavior of hedging its bets across the embedding space upon encountering ambiguous inputs. This results in improved performance for image matching and classification tasks, more structure in the learned embedding space, and an ability to compute a per-exemplar uncertainty measure that is correlated with downstream performance.
研究动机与目标
- 解决确定性实例嵌入在表示模糊输入(如遮挡或模糊图像)中的认知不确定性方面的局限性。
- 开发一种显式在嵌入空间中建模不确定性的方法,将嵌入视为随机变量。
- 在存在不确定性(尤其是受损或模糊输入)的情况下,提升图像匹配与分类任务的性能。
- 提供一种可靠的、与下游任务性能相关的每个样本的不确定性度量。
提出的方法
- Hedged Instance Embedding(HIB)将每个图像嵌入建模为随机变量 Z ~ p(z|x),通过潜在空间中的概率分布表示不确定性。
- 该方法采用变分信息瓶颈(VIB)原理进行训练,支持端到端学习随机嵌入。
- 采用可学习边距的软对比损失,利用基于Sigmoid的相似度度量将欧氏距离校准为概率匹配分数。
- 嵌入分布被建模为高斯混合模型(例如,对模糊数字对使用两个分量),使模型能够在多个可能的聚类间‘分散下注’。
- 通过嵌入分布的熵来量化不确定性,熵越高表示输入的模糊性越大。
- 模型在一种新型的N位数MNIST数据集上进行训练,该数据集旨在模拟单张图像中存在多个数字的模糊输入。
实验结果
研究问题
- RQ1与确定性嵌入相比,通过在多个潜在空间区域间分配概率质量的随机嵌入是否能提升在模糊图像输入上的性能?
- RQ2从嵌入分布中推导出的不确定性度量是否与在干净和受损输入上的下游任务性能相关?
- RQ3当输入被遮挡或退化时,HIB方法在图像匹配与分类任务中的表现如何?
- RQ4该不确定性度量能否区分模糊输入与新颖的、分布外的样本?
主要发现
- HIB在受损输入上的平均平均精度(mAP)和KNN分类准确率方面均有提升,与点嵌入相比,mAP在某些设置下最高提升0.15。
- 从嵌入分布计算出的不确定性度量η(x)与性能呈强烈负相关——不确定性越高,准确率越低,符合预期。
- 在受损输入上,不确定性与性能的Kendall’s tau相关系数达到mAP的0.67和KNN的0.55,表明存在稳健的单调关系。
- 在KNN分类中,该不确定性度量优于到最近邻的距离作为不确定性代理,尤其是在无明显退化的干净图像上。
- 即使在干净、未受损的图像上,HIB的不确定性度量仍与性能相关,表明其捕捉了超出输入退化本身的内在模糊性。
- 初步结果表明,η(x)与遮挡引起的不确定性相关性良好,但对来自新类别(未见类别)的认知不确定性建模效果较差,提示未来需加强对开放世界不确定性的建模。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。