[论文解读] Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering
本文提出 EgoPointVQA(手势对齐的VQA数据集)与 HINT(将3D手部关键点编码为令牌并与视觉/文本输入交错以提升自我视角VQA中手势的定位能力),HINT 在多种骨干模型上实现了 EgoPointVQA 的最先进结果。
Understanding and answering questions based on a user's pointing gesture is essential for next-generation egocentric AI assistants. However, current Multimodal Large Language Models (MLLMs) struggle with such tasks due to the lack of gesture-rich data and their limited ability to infer fine-grained pointing intent from egocentric video. To address this, we introduce EgoPointVQA, a dataset and benchmark for gesture-grounded egocentric question answering, comprising 4000 synthetic and 400 real-world videos across multiple deictic reasoning tasks. Built upon it, we further propose Hand Intent Tokens (HINT), which encodes tokens derived from 3D hand keypoints using an off-the-shelf reconstruction model and interleaves them with the model input to provide explicit spatial and temporal context for interpreting pointing intent. We show that our model outperforms others in different backbones and model sizes. In particular, HINT-14B achieves 68.1% accuracy, on average over 6 tasks, surpassing the state-of-the-art, InternVL3-14B, by 6.6%. To further facilitate the open research, we will release the code, model, and dataset. Project page: https://yuuraa.github.io/papers/choi2026egovqa
研究动机与目标
- 推动在自我视角VQA中对指点手势的理解,以解决指示性引用(如“这个”或“那个”)。
- 创建一个覆盖时空定位的手势对齐指示性问题的数据集(EgoPointVQA)。
- 提出 HINT,通过3D手部关键点令牌向多模态大模型注入明确的手势上下文。
- 证明手势感知令牌可提升定位与整体VQA准确性,并在不同骨干模型上有所体现。
- 提供开放资源(数据集、代码、模型),促进对手势对齐VQA 的进一步研究。
提出的方法
- 提出 EgoPointVQA:4,000 条合成视频 + 400 条真实自我视角视频,覆盖六种任务类型的指示性问题。
- 将手势信息编码为 HINT:一个轻量级的 Keypoint Adapter 将每帧的21个手部关键点转换为与帧对齐的 Hand Intent Token H_t。
- 在将序列输入到多模态大语言模型(MLLM)时,将 H_t 与视觉令牌 V_t、标准文本提示交错,以实现对手势、空间和时间的联合推理。
- 使用3D 手姿态估计(WiLoR)提取 K_t,通过一个小型神经适配器投影到 H_t,并对置信度阈值 c_t>=tau 进行判断以决定是否插入令牌。
- 使用真实数据和合成数据混合进行训练;对视觉编码器和LLM进行 LoRA 微调;在真实 EgoPointVQA 测试集上的 32 帧视频样本进行评估。
- 通过消融实验比较 SFT、手势意图变体、数据组成和手势令牌配置,以 isolating 从 HINT 获得的增益。

实验结果
研究问题
- RQ1手势对齐线索在自我视角 VQA 中如何有效解决指示性引用?
- RQ2将3D手部关键点令牌引入是否能提升对指向性问题的定位准确性,在不同骨干网络上是否一致?
- RQ3合成数据与真实数据对手势对齐VQA性能的影响如何?
- RQ4不同手势意图表示和令牌阈值对任务性能和延迟的影响如何?
主要发现
| Method | Size | LLM | Refer. | Temporal | Spatial | Count | Attr. | Feed. | Avg. | |
|---|---|---|---|---|---|---|---|---|---|---|
| Random | - | - | 20.0 | 20.0 | 27.0 | 20.0 | 20.0 | 50.0 | 26.2 | |
| GPT-5 | - | - | 75.6 | 53.6 | 62.3 | 50.0 | 56.1 | 77.8 | 62.6 | |
| GPT-4o | - | - | 56.1 | 29.5 | 43.1 | 44.8 | 41.5 | 65.7 | 46.8 | |
| Qwen3-VL 32B | 32B | Qwen3 | 63.7 | 67.9 | 65.8 | 66.7 | 63.4 | 77.2 | 67.5 | |
| InternVL2.5 | 38B | InternLM2.5 | 61.3 | 57.1 | 60.5 | 39.6 | 63.4 | 77.2 | 59.9 | |
| InternVL3 | 38B | InternLM3 | 70.2 | 67.9 | 65.8 | 45.8 | 65.9 | 78.9 | 65.8 | |
| LLaVA-OneVision | 72B | Qwen2 | 61.3 | 44.6 | 60.5 | 41.7 | 51.2 | 72.3 | 55.3 | |
| VGLLM-QA | 8B | Qwen2.5 | 57.7 | 35.7 | 53.5 | 39.6 | 36.6 | 70.2 | 48.9 | |
| InternVL3-14B | 14B | InternLM3 | 73.8 | 69.6 | 64.9 | 54.2 | 63.4 | 82.5 | 68.1 | |
| InternVL3-8B | 8B | InternLM3 | 71.4 | 71.4 | 62.3 | 45.8 | 68.3 | 80.1 | 66.6 | |
| HINT (LLaVA-OneVision 7B) | 7B | Qwen2 | 60.7 | 50.0 | 56.1 | 39.6 | 48.8 | 71.1 | 54.4 | HA |
| HINT (InternVL3-8B) | 8B | InternLM3 | 75.0 | 66.1 | 64.9 | 61.0 | 79.8 | 63.7 | 63.7 |
- EgoPointVQA 对现有模型具有挑战性,任务间平均准确率低于 70%。
- HINT 在所有骨干模型上均提升性能,显著提高引用/定位准确率(例如 InternVL3-14B 从 63.1% 提升到 73.8%)。
- 在真实数据加入合成数据时获得最佳综合结果(在综合设置下引用率 75.0%、时序 66.1% 等)。
- 学习得到的3D关键点适配器(HINT)在手意图建模方面优于视觉提示或直接坐标输入。
- 在推理时,使用 HINT 会带来适度的额外延迟(在 InternVL3-8B 上从基线 2.58s 增至 2.84s),且手势令牌仅占总令牌的不到1%。
- 消融显示将 SFT + HINT 结合可获得最强的增益(例如引用准确率达到 75.0%)。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。