[论文解读] Deep generative-contrastive networks for facial expression recognition
论文提出 GCNet,这是一种将生成参考图像、对比表示和判别学习相结合的单图像面部表情识别框架,在 CK+、MMI 和 Oulu-CASIA 数据集上达到最先进的结果。
As the expressive depth of an emotional face differs with individuals or expressions, recognizing an expression using a single facial image at a moment is difficult. A relative expression of a query face compared to a reference face might alleviate this difficulty. In this paper, we propose to utilize contrastive representation that embeds a distinctive expressive factor for a discriminative purpose. The contrastive representation is calculated at the embedding layer of deep networks by comparing a given (query) image with the reference image. We attempt to utilize a generative reference image that is estimated based on the given image. Consequently, we deploy deep neural networks that embed a combination of a generative model, a contrastive model, and a discriminative model with an end-to-end training manner. In our proposed networks, we attempt to disentangle a facial expressive factor in two steps including learning of a generator network and a contrastive encoder network. We conducted extensive experiments on publicly available face expression databases (CK+, MMI, Oulu-CASIA, and in-the-wild databases) that have been widely adopted in the recent literatures. The proposed method outperforms the known state-of-the art methods in terms of the recognition accuracy.
研究动机与目标
- 在单张图像中利用同一身份的参考(生成)图像来应对表达模糊时实现鲁棒的表情识别的动机。
- 开发能够捕捉输入与参考图像之间显著表情变化的对比潜在表示。
- 在端到端网络中整合生成、对比和判别学习,以提升识别性能。
- 证明基于单图像、具备生成参考和对比学习的方法可以超越某些多图像或时序方法。
提出的方法
- 提出 GCNet,通过端到端框架联合学习从输入生成参考图像、提取对比潜在表示并进行分类。
- 将对比表示的增量 delta 定义为输入 X 与生成参考 Xhat_r 的归一化潜在编码之距离:delta = d(En(X), En(Xhat_r))。
- 使用由编码器 En 与解码器 De 组成的生成器 G,从 X 估计参考图像 Xhat_r,建模 X ≈ Xhat_r + epsilon。
- 通过多项损失进行训练:表达的判别性交叉熵损失、Xhat_r 与 Xr 的生成性 L2 损失、潜在空间的对比损失,以及输入解码器和参考解码器的重建损失。
- 优化一个联合目标 L = LCls + lambda_G LGen + lambda_S LContr + LRecon,在判别、生成、对比和重建目标之间取得平衡。
- 采用两步解耦策略:先生成参考以去除表达相关的变化,然后学习一个对比编码器以获取判别性特征。
实验结果
研究问题
- RQ1生成的参考图像是否提升了表达识别的判别性能?
- RQ2如何将对比度量学习与生成参考结合,得到用于表情的判别潜在表示?
- RQ3基于单图像且具备生成与对比学习的方法是否能优于多图像或时序方法?
- RQ4重建损失对对比表示质量和分类精度有何影响?
主要发现
| Method | Accuracy (%) |
|---|---|
| GCNet_S0R0 | 97.08 |
| GCNet_S1R0 | 97.83 |
| GCNet_S0R1 | 97.53 |
| GCNet_S1R1 | 97.93 |
| CNN (baseline) | 96.94 |
| DTAGN-Joint | 97.25 |
| STM-ExpLet | 94.19 |
| 3D-CNN | 85.9 |
| 3D-CNN-DAP | 92.4 |
| LBP-TOP | 88.99 |
| HOG 3D | 91.44 |
| MSR | 91.4 |
| TMS (4-fold) | 91.89 |
| traj. on S+(2; n) | 96.87 |
- GCNet 的变体在 CK+ 上使用对比和/或重建损失时,超越了多种最先进方法,包括单图像基线以及部分多图像方法。
- S1R1 变体(对比+重建)在所提模型中实现了 CK+ 的最高报告准确率。
- 在 CK+(7 表情与 8 表情)、MMI 和 Oulu-CASIA VIS 上,GCNet 家族的结果具有竞争力或优于手工特征、CNN 基线以及某些视频方法。
- 可视化(t-SNE)显示 GCNet 特征的表达类簇比 CNN 基线更清晰,支持更具判别性的潜在表示。
- 将生成组件替换为 VAE 或 GAN 的实验表明该框架可与不同的生成骨干网兼容。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。