QUICK REVIEW

[论文解读] DiscrimNet: Semi-Supervised Action Recognition from Videos using Generative Adversarial Networks

Unaiza Ahsan|arXiv (Cornell University)|Jan 22, 2018

Human Pose and Action Recognition参考文献 43被引用 23

一句话总结

该论文提出 DiscrimNet，一种半监督动作识别框架，利用预训练的 DCGAN 判别器作为视频动作识别的特征提取器。通过仅使用外观特征，不依赖运动编码或弱监督，该方法在 UCF101（50.12% 准确率）和 HMDB51（21.0% 准确率）上实现了最先进或具有竞争力的性能，证明了基于 GAN 的无监督预训练在视频表征学习中的有效性。

ABSTRACT

We propose an action recognition framework using Gen- erative Adversarial Networks. Our model involves train- ing a deep convolutional generative adversarial network (DCGAN) using a large video activity dataset without la- bel information. Then we use the trained discriminator from the GAN model as an unsupervised pre-training step and fine-tune the trained discriminator model on a labeled dataset to recognize human activities. We determine good network architectural and hyperparameter settings for us- ing the discriminator from DCGAN as a trained model to learn useful representations for action recognition. Our semi-supervised framework using only appearance infor- mation achieves superior or comparable performance to the current state-of-the-art semi-supervised action recog- nition methods on two challenging video activity datasets: UCF101 and HMDB51.

研究动机与目标

为解决动作识别中标签视频数据有限的挑战，利用大规模未标记视频数据集。
探究在未标记视频上预训练的 GAN 判别器是否可作为动作识别的有效特征提取器。
消除视频动作识别中对人工特征工程、视频帧编码或复杂采样策略的需求。
在标准基准上评估仅使用外观的无监督预训练方法相对于最先进半监督方法的性能。
证明基于 GAN 的预训练可在无时间一致性监督的情况下实现强大的域泛化能力和表征学习。

提出的方法

在大规模未标记视频数据集上训练深度卷积 GAN（DCGAN），学习一个能区分真实视频帧与生成帧的判别器。
将预训练的判别器作为固定特征提取器，使用其学习的权重初始化动作识别网络。
在小规模标签数据集（UCF101 或 HMDB51）上对判别器头部进行微调，使用交叉熵损失进行动作分类。
通过不同层（如 CONV4、CONV5）提取的特征使用线性 SVM 进行性能评估，或采用端到端微调。
与多种依赖时间顺序预测、运动编码或序列验证的最先进半监督方法进行对比。
仅使用 RGB 帧外观作为输入，避免使用光流、运动编码或时间一致性约束。

实验结果

研究问题

RQ1在无任何标签数据的情况下，基于未标记视频预训练的 GAN 判别器能否学习到对动作识别有用的视频表征？
RQ2使用 GAN 判别器进行基于外观的无监督预训练，是否能优于或匹配依赖时间顺序或运动线索的最先进半监督方法？
RQ3预训练的判别器是否具备跨数据集泛化能力，例如在未使用 HMDB51 数据进行预训练的情况下识别 HMDB51 中的动作？
RQ4网络架构和超参数的选择在多大程度上影响基于 GAN 的预训练在视频动作识别中的性能？
RQ5所提出的方法是否消除了视频表征学习中对弱监督（如帧排序或运动一致性）的需求？

主要发现

DiscrimNet 在 UCF101 上使用 CONV4 和 CONV5 特征组合及线性 SVM 进行分类，达到 50.12% 的 top-1 准确率，优于多种最先进方法（如 O3N 的 60.3% 和 OPN 的 56.3%），且仅使用外观特征。
在 HMDB51 上，微调后方法达到 21.0% 的准确率，优于所有对比的半监督方法，仅除 O3N 外，且预训练阶段未使用任何 HMDB51 数据。
无监督预训练步骤显著提升性能：从 DiscrimNet 初始化的模型在 UCF101 上微调可达到 49.30% 准确率，而使用 Xavier 初始化仅达 33.10%。
该方法在无需任何运动编码、时间顺序建模或弱监督的情况下取得具有竞争力的结果，完全依赖外观和对抗训练。
在大规模未标记视频数据上预训练的 GAN 判别器学习到的表征具有鲁棒性和泛化能力，能有效迁移到下游动作识别任务。
该方法展现出强大的领域自适应能力，即使在预训练阶段未使用任何 HMDB51 数据，其预训练模型也能有效泛化到 HMDB51 任务。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。