QUICK REVIEW

[论文解读] Neural Aggregation Network for Video Face Recognition

Jiaolong Yang, Peiran Ren|arXiv (Cornell University)|Mar 17, 2016

Face recognition and analysis参考文献 42被引用 45

一句话总结

该论文提出了一种用于视频人脸识别的神经聚合网络（NAN），通过双注意力机制从可变长度的人脸视频序列中学习自适应、顺序无关的特征聚合。在使用标准分类或验证损失进行训练时，NAN在IJB-A、YouTube Face和Celebrity-1000数据集上均优于基线方法（包括平均池化和最大池化），通过自动强调高质量帧并抑制噪声帧，实现了最先进（SOTA）的识别准确率。

ABSTRACT

This paper presents a Neural Aggregation Network (NAN) for video face recognition. The network takes a face video or face image set of a person with a variable number of face images as its input, and produces a compact, fixed-dimension feature representation for recognition. The whole network is composed of two modules. The feature embedding module is a deep Convolutional Neural Network (CNN) which maps each face image to a feature vector. The aggregation module consists of two attention blocks which adaptively aggregate the feature vectors to form a single feature inside the convex hull spanned by them. Due to the attention mechanism, the aggregation is invariant to the image order. Our NAN is trained with a standard classification or verification loss without any extra supervision signal, and we found that it automatically learns to advocate high-quality face images while repelling low-quality ones such as blurred, occluded and improperly exposed faces. The experiments on IJB-A, YouTube Face, Celebrity-1000 video face recognition benchmarks show that it consistently outperforms naive aggregation methods and achieves the state-of-the-art accuracy.

研究动机与目标

为解决在姿态、光照和图像质量变化下构建紧凑、固定大小的视频级表征以实现人脸识别的挑战。
开发一种端到端可训练的聚合机制，自适应地加权帧级特征，而无需额外监督或固定启发式规则。
通过优先选择高质量、判别性强的人脸图像并抑制模糊、遮挡或曝光不良的帧，提升识别准确率。
通过为每段视频生成单一的、固定维度的特征向量，实现高效的相似度计算，将帧间匹配的复杂度从O(n²)降低。

提出的方法

该网络由两个模块组成：基于深度卷积神经网络（CNN）的特征嵌入模块，用于从每个输入人脸图像中提取帧级特征。
一个聚合模块，包含两个级联的注意力模块，用于计算自适应、与内容相关的权重，将帧级特征线性组合为单一紧凑表征。
注意力机制实现了顺序不变性，并使网络能够基于学习到的相关性分数，动态强调高质量帧。
模型使用标准分类或验证损失进行训练，无需额外监督，从而实现端到端的鲁棒特征聚合学习。
最终输出为一个固定大小的128维特征向量，表示整个视频序列，适用于直接的相似度比较。

实验结果

研究问题

RQ1深度神经网络能否在无显式监督的情况下，自动识别并强调视频序列中的高质量人脸图像？
RQ2基于注意力的聚合机制是否能产生比标准池化操作更具鲁棒性和判别性的视频级表征？
RQ3所提出的模型能否在保持计算和内存效率的同时，在视频人脸识别基准上实现最先进性能？
RQ4与单视频聚合相比，该模型在聚合同一主体的多段视频特征时表现如何？

主要发现

在IJB-A基准上，NAN在视频级聚合中达到88.04%的rank-1识别准确率，在主体级聚合中达到90.44%，显著优于基线方法CNN+AvePool（分别为86.06%和84.46%）。
在YouTube Face数据集上，NAN在视频级聚合中达到82.95%的rank-1准确率，在主体级聚合中达到83.33%，较基线CNN+AvePool高出超过2个百分点。
在Celebrity-1000数据集上，NAN在开放集测试中通过主体级聚合达到88.76%的rank-1准确率，相较于CNN+AvePool（84.11%）及其他基线方法有显著提升。
与视频级聚合相比，主体级聚合策略使NAN性能提升了2.4个百分点，而CNN+AvePool在同一设置下性能下降，表明NAN对数据变化具有更强的鲁棒性。
模型自动学习到抑制低质量帧（如模糊或遮挡图像），这一结论得到所有基准上一致的性能提升结果的证实。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。