[论文解读] Weak to Strong: VLM-Based Pseudo-Labeling as a Weakly Supervised Training Strategy in Multimodal Video-based Hidden Emotion Understanding Tasks
论文提出一个多模态弱监督框架用于基于视频的隐藏情感理解,将VLM生成的伪标签与三模态管线(图像、关键点、文本)结合,在iMiGUE数据集上实现了SOTA,并且基于MLP的关键点骨干在性能上与GCN相近或相当。
To tackle the automatic recognition of "concealed emotions" in videos, this paper proposes a multimodal weak-supervision framework and achieves state-of-the-art results on the iMiGUE tennis-interview dataset. First, YOLO 11x detects and crops human portraits frame-by-frame, and DINOv2-Base extracts visual features from the cropped regions. Next, by integrating Chain-of-Thought and Reflection prompting (CoT + Reflection), Gemini 2.5 Pro automatically generates pseudo-labels and reasoning texts that serve as weak supervision for downstream models. Subsequently, OpenPose produces 137-dimensional key-point sequences, augmented with inter-frame offset features; the usual graph neural network backbone is simplified to an MLP to efficiently model the spatiotemporal relationships of the three key-point streams. An ultra-long-sequence Transformer independently encodes both the image and key-point sequences, and their representations are concatenated with BERT-encoded interview transcripts. Each modality is first pre-trained in isolation, then fine-tuned jointly, with pseudo-labeled samples merged into the training set for further gains. Experiments demonstrate that, despite severe class imbalance, the proposed approach lifts accuracy from under 0.6 in prior work to over 0.69, establishing a new public benchmark. The study also validates that an "MLP-ified" key-point backbone can match - or even surpass - GCN-based counterparts in this task.
研究动机与目标
- 在标注数据有限的情况下,解决在视频中识别隐藏情感的挑战。
- 开发一个利用大规模视觉-语言模型进行伪标签生成的多模态弱监督训练管线。
- 评估简化关键点骨干(MLP)是否能够在该任务中匹配或超越基于GCN的方法。
提出的方法
- 按帧用YOLOv11x裁剪人物肖像并用Dinov2-Base进行图像特征编码。
- 提取137个OpenPose关键点并计算帧间偏移,形成三个关键点流(骨架、面部、手部),通过Transformer建模,采用MLP骨干作为GCN替代方案。
- 使用Gemini 2.5 Pro结合CoT+Reflection提示生成伪标签和推理文本,然后在测试样本中以胜负标签作为伪标签。
- 用BERT-Base对生成的文本进行编码,并通过拼接和残差融合层将图像、关键点、文本模态进行融合。
- 先进行模态特异性骨干网络的训练,再通过第二阶段的弱监督微调,将测试集中的Gemini生成伪标签进行扩增。

实验结果
研究问题
- RQ1一个利用VLM生成的伪标签的弱监督多模态框架是否能在视频隐藏情感识别任务中优于现有方法?
- RQ2基于MLP的关键点骨干在时空关键点建模方面是否可与基于图的骨干(GCN/GAT/GIN)竞争?
- RQ3显式偏移特征工程和通过Transformer进行长序列时序建模是否比基于帧的方法带来更好性能?
- RQ4模态特异性预训练和弱监督对最终准确性的影响如何?
- RQ5将VLM生成的文本(通过CoT+Reflection提示)纳入多模态融合是否显著提升隐藏情感理解的效果?
主要发现
- 所提出的方法在iMiGUE数据集上达到了最新的准确率,超越早期工作低于0.6的成绩,达到超过0.69的水平。
- 带偏移特征的MLP关键点骨干在该任务中与基于GCN的骨干相当甚至优于之,提供了更简单高效的替代方案。
- 使用密集帧抽样并结合长序列Transformer的图像特征在性能上与仅抽样更少帧的XCLIP基线相当。
- 两阶段训练(模态特异性预训练 + 使用Gemini伪标签进行弱监督微调)带来最强增益,若包含偏移特征和预训练,准确率可达69.23%。
- 来自Gemini 2.5 Pro的伪标签,在CoT+Reflection提示的引导下,与训练数据合并后在弱监督条件下提升了准确性。
- 通过简单拼接并加上残差融合层进行跨模态融合,由于数据有限,相较于更复杂的跨注意力融合显示出更好的稳定性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。