Skip to main content
QUICK REVIEW

[论文解读] Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors

Xuanyi Dong, Shoou-I Yu|arXiv (Cornell University)|Jul 3, 2018
Face recognition and analysis参考文献 36被引用 30
一句话总结

本文提出监督性注册(SBR),一种无监督方法,通过可微分Lucas-Kanade光流追踪实现时间一致性,从而提升面部关键点检测器的精度。通过将注册损失的梯度反向传播至追踪的关键点与当前帧检测结果对齐,SBR 在无需人工标注的情况下显著提升了图像和视频检测的准确性,并有效减少了视频序列中的抖动。

ABSTRACT

In this paper, we present supervision-by-registration, an unsupervised approach to improve the precision of facial landmark detectors on both images and video. Our key observation is that the detections of the same landmark in adjacent frames should be coherent with registration, i.e., optical flow. Interestingly, the coherency of optical flow is a source of supervision that does not require manual labeling, and can be leveraged during detector training. For example, we can enforce in the training loss function that a detected landmark at frame$_{t-1}$ followed by optical flow tracking from frame$_{t-1}$ to frame$_t$ should coincide with the location of the detection at frame$_t$. Essentially, supervision-by-registration augments the training loss function with a registration loss, thus training the detector to have output that is not only close to the annotations in labeled images, but also consistent with registration on large amounts of unlabeled videos. End-to-end training with the registration loss is made possible by a differentiable Lucas-Kanade operation, which computes optical flow registration in the forward pass, and back-propagates gradients that encourage temporal coherency in the detector. The output of our method is a more precise image-based facial landmark detector, which can be applied to single images or video. With supervision-by-registration, we demonstrate (1) improvements in facial landmark detection on both images (300W, ALFW) and video (300VW, Youtube-Celebrities), and (2) significant reduction of jittering in video detections.

研究动机与目标

  • 为解决面部关键点检测中不精确且不一致的人工标注问题,该问题限制了检测器的精度并导致视频中出现抖动。
  • 开发一种无需依赖昂贵且易出错的人工标注的方法,以提升检测器性能。
  • 利用大规模未标注视频数据,增强检测器的泛化能力和时间稳定性。
  • 基于相邻帧之间的时间一致性,使用光流作为代理监督,提供一种训练信号。

提出的方法

  • 该方法引入一个可微分的Lucas-Kanade(LK)层,在前向传播中基于光流计算关键点追踪,并反向传播梯度以强制实现时间一致性。
  • 注册损失被定义为当前帧中直接检测到的关键点与通过LK操作从上一帧追踪得到的关键点之间的L2距离。
  • 仅当光流通过前向-后向一致性检验时,才应用该损失,以确保监督的可靠性。
  • 检测器通过联合损失进行端到端训练:来自标注数据的标准监督损失,以及来自未标注视频的新注册损失。
  • 梯度更新促使检测器生成不仅接近真实值,且在帧间保持时间一致性的检测结果。
  • 该方法在推理时避免使用后处理或循环网络,因为时间稳定性已在训练阶段嵌入。

实验结果

研究问题

  • RQ1能否在无需人工标注的情况下,利用面部关键点检测的时间一致性作为自监督信号?
  • RQ2强制光流一致性在图像和视频上如何提升检测器的精度?
  • RQ3与标准检测基线相比,该方法在多大程度上减少了视频序列中的抖动?
  • RQ4当伪标签存在噪声或错误时,该方法与自训练方法相比表现如何?

主要发现

  • SBR 显著减少了视频检测中的抖动,如附带视频所直观展示的,即使在评估指标(NME、AUC)仅显示小幅提升的情况下亦然。
  • 在300VW和YouTube-Celebrities视频基准测试中,SBR在仅使用人工标注数据训练的基线模型基础上,进一步提升了关键点检测精度。
  • 在具有完美标注的合成数据集'SyntheticFace'上,使用SBR训练的模型在不同噪声水平下表现近乎一致,表明其对标注错误具有鲁棒性。
  • 在噪声测试标注上评估时,SBR模型优于自训练基线,后者因缺乏对伪标签的反馈而出现错误累积。
  • 消融实验表明,若忽略追踪关键点的梯度(如在自训练中),检测器误差会漂移,YouTube Celebrities数据集上的NME从4.74上升至5.45,证实SBR中完整梯度反馈的优势。
  • 该方法在无需推理时后处理、光流追踪或循环单元的情况下,实现了更好的泛化能力和稳定性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。