QUICK REVIEW

[论文解读] Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning

Lifeng Fan, Wenguan Wang|arXiv (Cornell University)|Sep 4, 2019

Multimodal Machine Learning Applications参考文献 61被引用 23

一句话总结

本文提出了 VACATION，一个大规模视频数据集，用于研究社交互动中的人类凝视交流，并提出了一种时空图神经网络来建模原子级和事件级的凝视动态。该方法通过在时空图上进行消息传递，推断细粒度的凝视类型，并采用编码器-解码器网络进行高层通信事件的预测，在原子级分类任务上达到 55.02% 的 top-1 准确率，在事件级任务上使用真实标签时达到 55.9% 的准确率，性能达到当前最先进水平。

ABSTRACT

This paper addresses a new problem of understanding human gaze communication in social videos from both atomic-level and event-level, which is significant for studying human social interactions. To tackle this novel and challenging problem, we contribute a large-scale video dataset, VACATION, which covers diverse daily social scenes and gaze communication behaviors with complete annotations of objects and human faces, human attention, and communication structures and labels in both atomic-level and event-level. Together with VACATION, we propose a spatio-temporal graph neural network to explicitly represent the diverse gaze interactions in the social scenes and to infer atomic-level gaze communication by message passing. We further propose an event network with encoder-decoder structure to predict the event-level gaze communication. Our experiments demonstrate that the proposed model improves various baselines significantly in predicting the atomic-level and event-level gaze

研究动机与目标

为从原子级（细粒度凝视类型）和事件级（复杂社交事件）两个角度解决理解社交视频中人类凝视交流的挑战。
通过构建 VACATION——一个大规模视频数据集，包含对凝视、人脸、物体和交流结构的详细标注，建立一个全面的凝视交流基准。
开发一种时空图推理模型，通过消息传递和时间建模捕捉动态凝视交互。
通过准确的凝视交流推断，推动人机交互、虚拟现实模拟、自闭症诊断和认知建模的发展。

提出的方法

提出一种时空图神经网络，将参与者建模为节点，凝视交互建模为边，通过消息传递推断原子级凝视交流类型。
使用具有迭代消息传递的图神经网络，在时间上跨参与者传播注意力和凝视上下文。
采用编码器-解码器架构进行事件级凝视交流预测，建模原子行为的时间组合。
整合来自 ResNet50（192-d）和位置信息的节点特征，邻接矩阵通过注意力机制学习。
应用 3D 卷积层处理邻接矩阵和时间动态，实现联合时空推理。
对节点特征提取、消息传递迭代次数和时间建模组件进行消融研究，以验证设计选择。

实验结果

研究问题

RQ1如何有效建模社交视频中诸如相互凝视、回避凝视和跟随凝视等细粒度的原子级凝视交流模式？
RQ2时空图结构在捕捉超越静态视觉特征的动态凝视交互中起到什么作用？
RQ3如何将长期、高层级的凝视交流事件（如共同注意和凝视跟随）建模为原子行为的时间组合？
RQ4在事件级凝视交流预测中，引入真实标签的原子级标签能在多大程度上提升性能？
RQ5模型中哪些关键组件对性能贡献最大，它们在推理过程中如何相互作用？

主要发现

所提模型在原子级凝视交流分类任务上达到 55.02% 的 top-1 平均准确率，优于多个强基线模型。
在使用真实标签时，事件级模型达到 55.9% 的 top-1 准确率，证明了分层建模方法的有效性。
消融研究显示，基于 ResNet50 的 192-d 节点特征表现最佳，消息传递迭代次数在达到某个点后性能开始下降。
仅使用邻接矩阵（AdjMat-only）的基线表现尚可，但显著劣于完整模型，表明仅靠几何关系不足以实现高性能，还需上下文场景理解。
采用显式时间推理（LSTM）的模型优于通过隐式学习邻接矩阵的版本，凸显了结构化时间建模的优势。
定性结果表明，模型通过时空推理能正确识别多种凝视类型，但因凝视动态细微或快速变化以及眼睛被遮挡，仍存在失败案例。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。