Skip to main content
QUICK REVIEW

[论文解读] DiffFace-Edit: A Diffusion-Based Facial Dataset for Forgery-Semantic Driven Deepfake Detection Analysis

Feng Ding, Wenhui Yi|arXiv (Cornell University)|Jan 20, 2026
Generative Adversarial Networks and Image Synthesis被引用 0
一句话总结

DiffFace-Edit 引入百万级、部分合成人脸数据集,聚焦通过扩散模型编辑的八个面部区域,分析检测器规避样本,并基于跨域 IMDL 定位方法进行基准评测。

ABSTRACT

Generative models now produce imperceptible, fine-grained manipulated faces, posing significant privacy risks. However, existing AI-generated face datasets generally lack focus on samples with fine-grained regional manipulations. Furthermore, no researchers have yet studied the real impact of splice attacks, which occur between real and manipulated samples, on detectors. We refer to these as detector-evasive samples. Based on this, we introduce the DiffFace-Edit dataset, which has the following advantages: 1) It contains over two million AI-generated fake images. 2) It features edits across eight facial regions (e.g., eyes, nose) and includes a richer variety of editing combinations, such as single-region and multi-region edits. Additionally, we specifically analyze the impact of detector-evasive samples on detection models. We conduct a comprehensive analysis of the dataset and propose a cross-domain evaluation that combines IMDL methods. Dataset will be available at https://github.com/ywh1093/DiffFace-Edit.

研究动机与目标

  • 解决 forgery 检测缺乏细粒度、区域级别的人脸 manipulation 数据的问题。
  • 提供百万级部分合成人脸数据集,带有精确区域注释和提示。
  • 研究 detector-evasive (SA) 样本及其对 IMDL 模型定位性能的影响。
  • 通过整合八个定位器在扩散模型操作下,评估跨域检测/定位。

提出的方法

  • 通过在单区域和多区域编辑中,使用六个扩散模型对八个面部区域进行编辑,生成部分合成人脸。
  • 用编辑区域及所使用的具体提示标注每张伪造图像。
  • 包含 detector-evasive 样本和语义上模糊的样本,以测试检测器鲁棒性。
  • 在 SC- 和 SA-样本条件下,使用像素级 F1 与 IoU 指标对八个 IMDL 定位器进行基准评测。
  • 通过整合八个定位器,进行跨域评估。
  • 提供遵循 IMDL-BenCo 风格的跨域评估框架。
Fig. 1 : The fake data generation pipeline of proposed DiffFace-Edit dataset.
Fig. 1 : The fake data generation pipeline of proposed DiffFace-Edit dataset.

实验结果

研究问题

  • RQ1八个面部区域的部分区域编辑如何影响 IMDL 模型的 forgery 检测与定位?
  • RQ2 detector-evasive SA 样本对扩散模型编辑下的 IMDL 定位性能有何影响?
  • RQ3在 SC 样本上训练是否能泛化到 SA 样本以及不同扩散模型?
  • RQ4增加伪造区域的多样性(从单区域到五区域再到八区域)是否会降低定位精度?
  • RQ5是否可以通过利用多种定位器的跨域 IMDL 评估提高对扩散基伪造的鲁棒性?

主要发现

  • DiffFace-Edit 包含超过两百万张在拼接、去除和复制/移动等 manipulated 下生成的伪造人脸图像。
  • detector-evasive 的 SA 样本在 SA 样本测试时会导致 IMDL 定位器的 IoU 与 F1 出现大幅下降。
  • 在 SC 样本上训练的模型在 SC 样本上具有更高的定位能力,但对来自其他扩散模型的 SA 样本泛化能力较差。
  • 移除样本在可视性更高的一致性下仍可能出现误检率上升等现象,呈现出直觉上反常的检测难度。
  • 提高伪造区域的丰富性(从单区域到八区域)通常会降低若干 IMDL 模型的定位性能。
  • 边缘感知定位器(如 IML-ViT)通常优于朴素检测器,但在不同的操作类型和扩散模型下性能存在差异。
Fig. 2 : Distribution of the splicing subset. Panel (a) shows the proportion of each edited region in single-region edits; panel (b) shows the proportion of each edited region in multi-region edits; panel (c) shows the distribution of multi-region edits by number of edited regions.
Fig. 2 : Distribution of the splicing subset. Panel (a) shows the proportion of each edited region in single-region edits; panel (b) shows the proportion of each edited region in multi-region edits; panel (c) shows the distribution of multi-region edits by number of edited regions.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。