QUICK REVIEW

[论文解读] Scaling Egocentric Vision: The EPIC-KITCHENS Dataset

Dima Damen, Hazel Doughty|arXiv (Cornell University)|Apr 8, 2018

Multimodal Machine Learning Applications参考文献 33被引用 291

一句话总结

EPIC-KITCHENS 提供了一个大规模的主观第一视角视频基准数据集，包含来自 32 名参与者在原生厨房中的密集动作片段和主动对象边界框，以及在 Seen 和 Unseen 厨房中的对象检测、动作识别与动作预测基线。

ABSTRACT

First-person vision is gaining interest as it offers a unique viewpoint on people's interaction with objects, their attention, and even intention. However, progress in this challenging domain has been relatively slow due to the lack of sufficiently large datasets. In this paper, we introduce EPIC-KITCHENS, a large-scale egocentric video benchmark recorded by 32 participants in their native kitchen environments. Our videos depict nonscripted daily activities: we simply asked each participant to start recording every time they entered their kitchen. Recording took place in 4 cities (in North America and Europe) by participants belonging to 10 different nationalities, resulting in highly diverse cooking styles. Our dataset features 55 hours of video consisting of 11.5M frames, which we densely labeled for a total of 39.6K action segments and 454.3K object bounding boxes. Our annotation is unique in that we had the participants narrate their own videos (after recording), thus reflecting true intention, and we crowd-sourced ground-truths based on these. We describe our object, action and anticipation challenges, and evaluate several baselines over two test splits, seen and unseen kitchens. Dataset and Project page: http://epic-kitchens.github.io

研究动机与目标

引入一个在参与者原生厨房中拍摄的大规模主观（第一人称）视频数据集，以研究自然多任务和意图。
为动作和交互对象提供与参与者叙述对齐的密集注释，以捕捉真实意图。
在 Seen 与 Unseen 厨房划分下，定义并基准对象检测、动作识别与动作预测。
突出挑战与基线，推动自然主义的主观视觉研究。

提出的方法

从北美和欧洲四个城市的 32 名参与者处收集 55 小时的主观视频。
在记录后让参与者叙述动作，以反映真实意图，并对对齐和标注进行众包真值整理。
对在动作段落中参与互动的对象进行活跃对象边界框注释。
将动词和名词聚类为 125 个动词类型（C_V）和 331 个名词类型（C_N），以实现多类任务。
在三个挑战上评估基线：对象检测、动作识别和动作预测，包含 seen/unseen 厨房的划分。

实验结果

研究问题

RQ1如何在参与者原生环境中收集大规模的主观厨房数据集，以反映自然多任务和意图？
RQ2在 Seen 与 Unseen 厨房中，主观对象检测、动作识别和预测的挑战与基线表现为何？
RQ3叙述文本与多语言注释如何影响真值质量和下游任务性能？
RQ4模型在主观视角任务中对未见环境的泛化能力到何种程度？

主要发现

EPIC-KITCHENS 包含 55 小时视频、11.5 百万帧、39.6k 动作片段，以及 454k+ 活动对象边界框。
参与者提供的叙述为动作片段提供了真值的动作信息，尽管存在缺口，作者通过时间调整和注释聚合来解决。
行为对象以及动词/名词类别的聚类结果形成 125 个动词类（C_V）和 331 个名词类（C_N），用于所有基准。
基线对象检测（Faster R-CNN with ResNet-101）和基于 TSN 的动作识别/预测在泛化方面存在显著差距，特别是在 unseen 厨房；对于某些类别和小样本情形，检测性能显著较低。
动作预测仍比动作识别更困难，融合带来适度提升，但在预测未来动作时总体性能下降。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。