[论文解读] ORBIT: A Real-World Few-Shot Dataset for Teachable Object Recognition
本文提出了 ORBIT,一个包含 3,822 段视频的现实世界少样本视频数据集,涵盖 486 种物体,由盲人或低视力用户在日常环境中使用手机拍摄,旨在用于评估可教学物体识别器。该数据集在基准测试中建立了新的最先进水平,凸显了在现实世界少样本设置中对高变异性的鲁棒性需求,并为推动超越精心筛选数据集的真实世界视觉应用研究奠定了基础。
Object recognition has made great advances in the last decade, but predominately still relies on many high-quality training examples per object category. In contrast, learning new objects from only a few examples could enable many impactful applications from robotics to user personalization. Most few-shot learning research, however, has been driven by benchmark datasets that lack the high variation that these applications will face when deployed in the real-world. To close this gap, we present the ORBIT dataset and benchmark, grounded in the real-world application of teachable object recognizers for people who are blind/low-vision. The dataset contains 3,822 videos of 486 objects recorded by people who are blind/low-vision on their mobile phones. The benchmark reflects a realistic, highly challenging recognition problem, providing a rich playground to drive research in robustness to few-shot, high-variation conditions. We set the benchmark's first state-of-the-art and show there is massive scope for further innovation, holding the potential to impact a broad range of real-world vision applications including tools for the blind/low-vision community. We release the dataset at https://doi.org/10.25383/city.14294597 and benchmark code at https://github.com/microsoft/ORBIT-Dataset.
研究动机与目标
- 通过引入一个基于实际应用场景的真实世界基准,弥合少样本学习研究中的空白,特别关注盲人或低视力人群的需求。
- 构建一个能捕捉现实世界条件下高变异性的数据集,例如拍摄不完整、遮挡、模糊以及多变光照等情形,与精心筛选的基准形成对比。
- 创建一个以用户为中心的少样本学习基准,衡量个性化程度和计算成本,反映移动设备上实际部署的约束条件。
- 通过提供一个具有挑战性且真实的测试平台,推动鲁棒、可泛化的少样本视频识别技术发展,超越已趋于饱和且结构化的基准。
- 通过公开发布数据集和基准代码,推动在现实世界高变异条件下基于视频的少样本学习与迁移学习研究。
提出的方法
- 从 77 名盲人或低视力个体处收集 3,822 段不同物体的视频,使用手机在日常环境中拍摄。
- 设计一个基于可教学物体识别器(TORs)的少样本基准,用户通过提供少量示例视频来训练模型以满足其个人物体识别需求。
- 提出一种新颖的评估协议,同时衡量帧级别和视频级别的准确率,以及推理时间与针对个体用户的模型个性化程度。
- 实现并评估四种最先进少样本学习模型——CNAPs、ProtoNets、MAML 和 FineTuner——通过时间聚合和特征学习方法适配至视频输入。
- 采用元学习策略,在少量样本下对多样化物体类别进行训练,以模拟现实世界中的适应场景。
- 引入 FTR(帧到视频识别比率)和个性化得分等指标,以反映现实世界中的计算和可用性约束。
实验结果
研究问题
- RQ1少样本视频识别模型能否在由终端用户在非受控环境中采集的高变异现实世界数据上实现有效泛化?
- RQ2当模型在现实世界低质量视频数据上训练时,其性能与在精心筛选的高质量基准上训练时相比有何差异?
- RQ3元学习模型在仅用少量样本的情况下,能在多大程度上适应新用户和新物体,同时保持在移动设备上的低推理成本?
- RQ4每类物体的训练视频数量以及每位用户的物体数量变化,对模型泛化能力和个性化程度有何影响?
- RQ5在多样化的真实世界视频上进行元训练,相比在合成或精心筛选的数据集上训练,是否能提升模型的鲁棒性?
主要发现
- ORBIT 基准在少样本视频识别任务中建立了新的最先进水平,最佳模型使用 FineTuner 方法达到 61.13% 的视频级别准确率。
- 在 ORBIT 上训练的模型在标准基准(如 mini-ImageNet)上评估时性能显著下降,表明现有数据集未能捕捉到真实世界中的变异特性。
- 增加每类物体的训练视频数量可提升性能,但当每类物体的上下文视频超过 50 个后,性能增益趋于平缓,表明存在收益递减现象。
- 在测试时遇到的物体数量少于训练时的物体数量进行元训练,仅导致性能小幅下降,表明对未见物体数量具有强大的泛化能力。
- 当训练任务数(T_train)超过 50 后,性能提升有限,表明在数据采样时应优先考虑帧的有用性而非单纯数量。
- 该基准揭示了当前模型在帧定位、遮挡和模糊等高变异情况下的表现困难,凸显了在真实世界部署中提升鲁棒性的迫切需求。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。