QUICK REVIEW

[论文解读] Graph-RISE: Graph-Regularized Image Semantic Embedding

Da-Cheng Juan, Chun-Ta Lu|arXiv (Cornell University)|Feb 14, 2019

Domain Adaptation and Few-Shot Learning参考文献 30被引用 28

一句话总结

Graph-RISE 提出了一种大规模神经图学习框架，通过结合4000万类图像分类任务与基于共点击和相似图像点击数据的图正则化，训练图像嵌入以捕捉超细粒度的实例级语义。在使用k-NN评估时，其在ImageNet上的Top-1准确率比当前最先进方法高出约2倍，在iNaturalist上的准确率更是超过5倍；定性结果表明，其在检索任务中与人类感知的对齐性也有所提升。

ABSTRACT

Learning image representations to capture fine-grained semantics has been a challenging and important task enabling many applications such as image search and clustering. In this paper, we present Graph-Regularized Image Semantic Embedding (Graph-RISE), a large-scale neural graph learning framework that allows us to train embeddings to discriminate an unprecedented O(40M) ultra-fine-grained semantic labels. Graph-RISE outperforms state-of-the-art image embedding algorithms on several evaluation tasks, including image classification and triplet ranking. We provide case studies to demonstrate that, qualitatively, image retrieval based on Graph-RISE effectively captures semantics and, compared to the state-of-the-art, differentiates nuances at levels that are closer to human-perception.

研究动机与目标

学习能够比类别级或细粒度语义区分更贴近人类感知的实例级语义的图像嵌入。
通过用大规模分类框架替代三元组学习，解决收集高质量三元组以进行细粒度排序的挑战。
利用图正则化将超越标签的人类感知驱动的图像相似性融入嵌入学习。
证明大规模图像分类（4000万类）与图正则化训练可生成最先进水平的图像嵌入。
验证图正则化深度学习可同时提升图像检索的定量性能与定性语义对齐性。

提出的方法

将图像嵌入学习表述为一个约4000万类、2.6亿张图像的大规模图像分类任务，以实现细粒度语义区分。
采用采样Softmax高效训练大规模标签空间，性能优于标准交叉熵训练。
构建两类图像-图像相似性图：共点击率与相似图像点击率，源自用户交互日志，以编码人类对相似性的感知。
引入图正则化器，最小化图中相连图像的嵌入距离，促使语义相似图像具有更接近的表示。
使用输入尺寸更大的深层残差网络（ResNet-101，289×289）以捕捉更详细的视觉特征，提升性能。
在端到端训练中联合优化标签预测与语义相似性，结合监督分类损失与图正则化损失。

实验结果

研究问题

RQ1通过4000万类的大规模分类训练的图像嵌入，是否能比类别级或细粒度方法更贴近人类感知的实例级语义？
RQ2利用共点击与相似图像点击数据进行图正则化，是否能超越仅依赖监督分类的嵌入质量？
RQ3用大规模分类框架替代基于三元组的排序，是否能在图像检索与相似性任务中取得更好性能？
RQ4图正则化嵌入在k-NN与三元组排序评估中，相对于最先进模型的性能优势有多大？
RQ5检索结果与人类对语义相似性的判断相比，其对齐程度如何，相较于现有方法表现如何？

主要发现

在ImageNet数据集上，使用k-最近邻评估时，Graph-RISE的Top-1准确率比最先进方法高出约2倍。
在iNaturalist数据集上，Graph-RISE在k-NN评估中将Top-1准确率提升超过5倍。
在PIT与GIT数据集的三元组排序评估中，Graph-RISE始终优于DeepRanking、Inception（8M）与ResNet（8M），尤其在较高边际值时表现更优。
人类对检索结果的评估显示，与DeepRanking或ResNet（40M）相比，Graph-RISE检索到的图像与查询图像在语义上更一致，尤其在强相似图像上的判断一致性更高。
使用更大的输入尺寸（289×289）而非224×224，在PIT三元组评估中使模型准确率提升1.57个百分点。
图正则化器有效降低了共点击或相似图像对之间的嵌入距离，从而提升了语义聚类与检索质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。