QUICK REVIEW

[论文解读] CP-mtML: Coupled Projection multi-task Metric Learning for Large Scale Face Retrieval

Binod Bhattarai, Gaurav Sharma|arXiv (Cornell University)|Apr 11, 2016

Face recognition and analysis参考文献 45被引用 47

一句话总结

该论文提出CP-mtML，一种新颖的耦合投影多任务度量学习方法，通过跨异构人脸数据集的成对相似性约束，联合学习共享投影和任务特定投影。该方法通过利用年龄和表情匹配等辅助任务，在大规模人脸检索中显著提升性能——尤其在百万干扰物设置下表现优异，相较于SOTA无监督与有监督基线方法，在LBP与CNN特征上均表现更优。

ABSTRACT

We propose a novel Coupled Projection multi-task Metric Learning (CP-mtML) method for large scale face retrieval. In contrast to previous works which were limited to low dimensional features and small datasets, the proposed method scales to large datasets with high dimensional face descriptors. It utilises pairwise (dis-)similarity constraints as supervision and hence does not require exhaustive class annotation for every training image. While, traditionally, multi-task learning methods have been validated on same dataset but different tasks, we work on the more challenging setting with heterogeneous datasets and different tasks. We show empirical validation on multiple face image datasets of different facial traits, e.g. identity, age and expression. We use classic Local Binary Pattern (LBP) descriptors along with the recent Deep Convolutional Neural Network (CNN) features. The experiments clearly demonstrate the scalability and improved performance of the proposed method on the tasks of identity and age based face image retrieval compared to competitive existing methods, on the standard datasets and with the presence of a million distractor face images.

研究动机与目标

解决现有度量学习方法在高维特征下大规模人脸检索中的可扩展性与性能局限。
实现跨异构数据集与多样化面部属性（如身份、年龄、表情）的有效多任务学习，而非仅限于单一数据集内的任务。
通过仅使用成对（非）相似性约束进行监督，减少对详尽类别级标注的依赖。
通过共享与任务特定投影的联合优化，提升在含百万数量级干扰图像的挑战性设置下的检索准确性。
在跨数据集、多任务场景下，验证该方法在手工设计特征（LBP）与深度特征（CNN）上的有效性。

提出的方法

该方法通过耦合投影学习低维嵌入：每个任务的最终投影由共享全局投影与任务特定投影组合而成。
共享投影捕捉任务间的共同结构，而任务特定组件则适应各任务的独特特征。
采用最大边缘铰链损失函数，基于人脸对之间的成对相似性/非相似性约束优化投影。
使用随机梯度下降算法进行优化，以高效扩展至高维描述符的大规模数据集。
框架在多个异构数据集的数据上联合训练，实现相关但不同的面部属性之间的知识迁移。
通过在学习到的投影空间中计算欧氏距离，将该方法应用于人脸检索以对候选样本进行排序。

实验结果

研究问题

RQ1多任务度量学习能否有效应用于具有不同面部属性（如身份、年龄、表情）的异构数据集之间，而非仅限于单个数据集内？
RQ2学习耦合投影（共享与任务特定）是否能提升在含百万干扰物的大规模人脸检索中的性能？
RQ3在准确率与可扩展性方面，CP-mtML相较于SOTA无监督（如WPCA）与有监督（如stML、utML）度量学习方法表现如何？
RQ4该方法在跨任务设置下，是否能在LBP与深度CNN特征等不同类型特征上实现良好泛化？
RQ5辅助任务（如年龄或表情匹配）对基于身份的人脸检索性能有何影响？

主要发现

在基于身份的检索中，CP-mtML显著优于WPCA与stML，在LBP特征与100万干扰物设置下，K=10与K=20时的1-call@K分别达到61.5%与70.7%。
在基于年龄的检索中，当年龄作为主任务、身份作为辅助任务时，CP-mtML在K=10与K=20时的1-call@K分别达到39.7%与47.8%，优于所有基线方法。
在多种投影维度下，CP-mtML均持续优于utML与stML，仅在使用强CNN特征时于高维下出现性能饱和。
定性结果表明，CP-mtML在检索正确匹配项并获得更优排名方面优于stML，尤其在非正脸姿态与表情丰富的人脸场景中表现更优。
在基于LBP特征的年龄检索中，CP-mtML性能优于所有使用CNN特征的方法，凸显CNN在泛化至非身份任务时的局限性。
该方法在大规模设置下表现出鲁棒性与可扩展性，即使干扰物数量达到百万级，性能增益仍能保持。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。