[论文解读] Linkage Based Face Clustering via Graph Convolution Network
该论文提出了一种基于图卷积网络(GCN)的人脸聚类方法,通过实例中心子图(IPS)利用局部上下文将聚类问题形式化为链接预测问题。通过从邻域特征中学习链接可能性,该方法在标准基准上实现了最先进性能,能有效处理噪声和异常值,并且在无需预先知道聚类数量的情况下高效扩展至大规模数据集。
In this paper, we present an accurate and scalable approach to the face clustering task. We aim at grouping a set of faces by their potential identities. We formulate this task as a link prediction problem: a link exists between two faces if they are of the same identity. The key idea is that we find the local context in the feature space around an instance (face) contains rich information about the linkage relationship between this instance and its neighbors. By constructing sub-graphs around each instance as input data, which depict the local context, we utilize the graph convolution network (GCN) to perform reasoning and infer the likelihood of linkage between pairs in the sub-graphs. Experiments show that our method is more robust to the complex distribution of faces than conventional methods, yielding favorably comparable results to state-of-the-art methods on standard face clustering benchmarks, and is scalable to large datasets. Furthermore, we show that the proposed method does not need the number of clusters as prior, is aware of noises and outliers, and can be extended to a multi-view version for more accurate clustering accuracy.
研究动机与目标
- 解决传统聚类方法因刚性假设而在复杂、非均匀分布数据上失效的人脸聚类挑战。
- 通过学习上下文感知的链接可能性,克服现有基于链接的方法中启发式链接度量的局限性。
- 开发一种无需输入聚类数量、对噪声和异常值具有鲁棒性的可扩展聚类框架。
- 通过融合互补特征(如人脸和音频)将方法扩展至多视角人脸聚类,以提升准确性。
提出的方法
- 将人脸聚类形式化为链接预测问题:若两幅人脸属于同一身份,则它们之间存在链接。
- 围绕每张人脸构建实例中心子图(IPS),以捕捉局部邻域上下文,将每个邻居建模为子图中的一个节点。
- 使用图卷积网络(GCN)对IPS进行推理,预测中心节点与其邻居之间的链接可能性。
- 基于预测的链接得分,对已链接节点执行传递性合并,形成最终聚类。
- 利用近似最近邻(ANN)搜索,将IPS构建复杂度从O(n²)降低至O(n log n),从而实现可扩展性。
- 通过拼接不同模态(如人脸和音频)的特征并基于联合表示训练GCN,将方法扩展至多视角聚类。
实验结果
研究问题
- RQ1在复杂数据分布下,上下文感知且可学习的链接预测机制是否能优于启发式度量?
- RQ2与传统聚类算法相比,所提出的基于GCN的方法在噪声和异常值下的鲁棒性提升程度如何?
- RQ3当面临数百万张干扰人脸时,该方法在大规模数据集上的可扩展性如何?
- RQ4该框架能否有效扩展至多视角人脸聚类,以利用不同数据源的互补信息?
主要发现
- 所提方法在标准人脸聚类基准上实现了最先进性能,在包含512个身份的VoxCeleb2测试集上,F1得分为0.841,NMI为0.940。
- 在大规模设置下(2,048个身份,100万张干扰人脸),方法保持了优异性能(F1: 0.810,NMI: 0.946),同时以O(n log n)复杂度实现高效扩展。
- 在所有评估协议下,该方法均优于ARO及其他基线方法,展现出对复杂且不平衡数据分布的优越鲁棒性。
- 通过人脸+音频特征的多视角扩展在512个身份上实现了F1得分为0.841、NMI为0.940,表明模型能有效学习互补信息,而启发式方法则失败。
- 该方法对噪声和异常值具有鲁棒性,且无需输入聚类数量,适用于真实世界中的开放集人脸聚类。
- 在使用ANN搜索时,运行时间随数据规模线性增长,可在单张GPU上高效处理大规模数据集。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。