QUICK REVIEW

[论文解读] Seeing Neural Networks Through a Box of Toys: The Toybox Dataset of Visual Object Transformations.

Xiaohan Wang, Tengyu Ma|arXiv (Cornell University)|Jun 15, 2018

Advanced Image and Video Retrieval Techniques参考文献 18被引用 2

一句话总结

本文介绍了Toybox，一个第一人称视角拍摄的视频数据集，记录了家用玩具和物体在受控、结构化的变换（如旋转和平移）下的操作过程。利用该数据集，作者展示了训练数据分布对卷积神经网络（CNN）性能的显著影响，并揭示了深度网络中视觉物体概念表征的内在机制。

ABSTRACT

Deep convolutional neural networks (CNNs) have enjoyed tremendous success in computer vision in the past several years, particularly for visual object recognition.However, how CNNs work remains poorly understood, and the training of deep CNNs is still considered more art than science. To better characterize deep CNNs and the training process, we introduce a new video dataset called Toybox. Images in Toybox come from first-person, wearable camera recordings of common household objects and toys being manually manipulated to undergo structured transformations like rotations and translations. We also present results from initial experiments using deep CNNs that begin to examine how different distributions of training data can affect visual object recognition performance, and how visual object concepts are represented within a trained network.

研究动机与目标

开发一个受控的、结构化的视频数据集，用于研究深度卷积神经网络在系统性变换下学习视觉物体识别的机制。
探究训练数据分布对卷积神经网络性能与泛化能力的影响。
通过结构化的真实世界物体操作，分析训练好的卷积神经网络中视觉物体概念的编码方式。
提供一个可复现的基准，用于探测深度卷积神经网络的内部表征与学习动态。

提出的方法

收集常见玩具和家用物品在人工操作下进行受控变换（如旋转和平移）的第一人称视频记录。
设计一个具有稳定、可重复视觉变化的数据集，以实现对卷积神经网络行为的系统性分析。
在Toybox数据的不同分布上训练深度卷积神经网络，以评估在受控数据偏移下的性能差异。
分析训练网络中的特征激活与表征，研究视觉概念如何被编码与泛化。

实验结果

研究问题

RQ1训练数据分布，特别是结构化变换，如何影响深度卷积神经网络在视觉物体识别任务中的性能？
RQ2当在结构化、真实世界物体操作数据上进行训练时，视觉物体概念在训练好的卷积神经网络内部层中如何表征？
RQ3训练数据中受控的视觉变换在多大程度上能提升深度网络的泛化能力与鲁棒性？

主要发现

训练数据分布对卷积神经网络性能有显著影响，其中结构化变换能提升在分布偏移下的识别性能。
训练好的卷积神经网络中的视觉物体概念通过分层特征学习进行表征，且与训练过程中观察到的变换类型密切相关。
Toybox数据集使得在受控视觉变化下系统性探究卷积神经网络的泛化与表征学习成为可能。
初步实验表明，经过多样化、结构化变换训练的网络能学习到更鲁棒且更具泛化能力的特征。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。