QUICK REVIEW

[论文解读] Multi-Modality Fusion based on Consensus-Voting and 3D Convolution for Isolated Gesture Recognition

Jiali Duan, Shuai Zhou|arXiv (Cornell University)|Nov 21, 2016

Hand Gesture Recognition Systems参考文献 36被引用 33

一句话总结

本文提出了一种用于使用RGB和深度视频进行孤立手势识别的多模态融合框架2SCVN-3DDSN。它在双流网络（2SCVN）中采用共识投票来建模长期时间动态，并利用3D卷积网络（3DDSN）融合深度和显著性流，显著提升了准确率。在ChaLearn IsoGD上，其准确率达到67.19%，比之前的SOTA高出10.29个百分点，并在RGBD-HuDaAct上达到96.74%。

ABSTRACT

Recently, the popularity of depth-sensors such as Kinect has made depth videos easily available while its advantages have not been fully exploited. This paper investigates, for gesture recognition, to explore the spatial and temporal information complementarily embedded in RGB and depth sequences. We propose a convolutional twostream consensus voting network (2SCVN) which explicitly models both the short-term and long-term structure of the RGB sequences. To alleviate distractions from background, a 3d depth-saliency ConvNet stream (3DDSN) is aggregated in parallel to identify subtle motion characteristics. These two components in an unified framework significantly improve the recognition accuracy. On the challenging Chalearn IsoGD benchmark, our proposed method outperforms the first place on the leader-board by a large margin (10.29%) while also achieving the best result on RGBD-HuDaAct dataset (96.74%). Both quantitative experiments and qualitative analysis shows the effectiveness of our proposed framework and codes will be released to facilitate future research.

研究动机与目标

解决在类间与类内差异下孤立手势识别中的高估计方差问题。
开发一种可泛化的框架，有效融合多种模态（RGB、光流、深度、显著性）以提升识别性能。
通过共识投票建模手势序列中的短期与长期时间结构。
利用深度与显著性模态减少背景干扰并增强判别性特征表示。
在ChaLearn IsoGD和RGBD-HuDaAct等挑战性基准上实现卓越性能。

提出的方法

2SCVN网络通过从视频不同片段中采样帧，并将它们的光流场堆叠作为输入，利用共识投票来建模长期时间动态。
空间流处理RGB帧，而时间流处理堆叠的光流场，通过共识投票聚合预测结果以降低方差。
3DDSN网络使用3D卷积层处理深度图和显著性图，以提取时空特征，增强判别能力。
2SCVN与3DDSN流在特征空间早期进行融合，结合RGB、光流、深度与显著性模态以进行最终分类。
该框架使用3D卷积以保持时空一致性，并提升跨模态的特征表示能力。
模型采用交叉熵损失进行端到端训练，推理时通过两流预测结果的后期融合完成。

实验结果

研究问题

RQ1在多个采样片段上采用共识投票是否能降低孤立手势识别中的估计方差？
RQ23D卷积在融合深度与显著性特征以提升手势识别性能方面有多有效？
RQ3结合RGB、光流、深度与显著性模态是否能显著优于单模态或双模态方法？
RQ4所提出的框架是否能泛化到其他视频识别任务？
RQ5各模态（RGB、光流、深度、显著性）对最终识别准确率的相对贡献如何？

主要发现

所提出的2SCVN-3DDSN框架在ChaLearn IsoGD基准上达到67.19%的准确率，比之前的SOTA高出10.29个百分点。
在RGBD-HuDaAct数据集上，该方法达到96.74%的准确率，创下新的SOTA记录。
2SCVN-Flow流单独达到58.36%的准确率，证明了通过光流进行运动建模的重要性。
3DDSN-Depth与3DDSN-Saliency流分别达到54.95%与43.35%的准确率，表明深度与显著性提供了强有力的互补信号。
融合2SCVN与3DDSN流相比仅使用2SCVN流提升了6%的性能，证实了多模态融合的有效性。
定性结果表明，即使在存在细微类间差异的挑战性情况下，识别准确率依然很高，仅观察到少数误分类。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。