[论文解读] Playing for Data: Ground Truth from Computer Games
本论文展示了通过拦截渲染通信,从现成的电脑游戏中提取像素级准确的语义标签,创建一个大规模带标签数据集,并显示游戏数据能提升真实世界语义分割模型并减少人工标注工作量。
Recent progress in computer vision has been driven by high-capacity models trained on large datasets. Unfortunately, creating large datasets with pixel-level labels has been extremely costly due to the amount of human effort required. In this paper, we present an approach to rapidly creating pixel-accurate semantic label maps for images extracted from modern computer games. Although the source code and the internal operation of commercial games are inaccessible, we show that associations between image patches can be reconstructed from the communication between the game and the graphics hardware. This enables rapid propagation of semantic labels within and across images synthesized by the game, with no access to the source code or the content. We validate the presented approach by producing dense pixel-level semantic annotations for 25 thousand images synthesized by a photorealistic open-world computer game. Experiments on semantic segmentation datasets show that using the acquired data to supplement real-world images significantly increases accuracy and that the acquired data enables reducing the amount of hand-labeled real-world data: models trained with game data and just 1/3 of the CamVid training set outperform models trained on the complete CamVid training set.
研究动机与目标
- 推动户外场景的大规模像素级语义标注,超越人工数据集。
- 展示商业游戏能够提供多样且逼真的数据,用于训练分割模型。
- 开发基于 detouring 的管线,在无需游戏源代码访问的情况下提取持久的对象签名。
- 自动在帧和实例之间传播标签以加速标注。
- 证明游戏派生数据能提升真实世界的分割性能并减少所需的真实世界标签。
提出的方法
- 通过 detouring 拦截从游戏到 GPU 的渲染流水线以记录渲染资源使用情况。
- 对网格、纹理和着色器进行哈希并持久识别,以在不同会话中创建稳定的对象签名。
- 每帧渲染两遍:一种常规颜色通道,以及编码每像素网格/纹理/着色器ID的第二遍。
- 将图像分解为由共享的 MTS(mesh-texture-shader)定义的补丁,以形成语义单元。
- 使用关联规则挖掘在共享资源的补丁之间自动传播标签。
- 具有快速标签传播的交互式标注界面,减少人工标注时间。
实验结果
研究问题
- RQ1在没有访问源代码的情况下,是否能够为商业游戏中的图像生成像素级准确的语义标签?
- RQ2合成的游戏数据是否能提升真实世界户外数据集上的语义分割性能?
- RQ3利用游戏派生的标注可以减少多少真实世界的标注工作量?
- RQ4使用持久渲染资源签名,标签在跨时间和跨实例之间传播的效果如何?
- RQ5游戏生成数据对训练鲁棒性的多样性与真实感影响如何?
主要发现
- 在49小时内为24,966帧GTA5生成标签,标注了98.3%的像素区域。
- 通过传播预注释的区域覆盖了数据集的98.3%以及通过 MTS 和规则累计像素面积的73%。
- 在 CamVid 上使用游戏数据并配合 1/3CamVid 的训练数据,使平均 IoU 提升 3.9 个百分点。
- 以游戏数据加上 1/3 CamVid 训练数据训练的模型,优于使用 CamVid 全部训练集训练的模型。
- 在 KITTI 上,游戏数据相比仅使用真实数据的训练提升了 2.6 个百分点。
- 在各项实验中,合成游戏数据扩增的训练优于仅使用真实数据的基线,同时降低了手动标注负担。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。