QUICK REVIEW

[논문 리뷰] Playing for Data: Ground Truth from Computer Games

Stephan R. Richter, Vibhav Vineet|arXiv (Cornell University)|2016. 08. 07.

Advanced Neural Network Applications참고 문헌 30인용 수 151

한 줄 요약

이 논문은 렌더링 통신을 가로채고 대규모 라벨링 데이터 세트를 생성함으로써 일반 상용 컴퓨터 게임에서 픽셀 정확한 의미 라벨을 추출하는 방법을 입증하고, 게임 데이터가 실제 세계의 의미 분할 모델을 개선하고 수작업 라벨링 노력을 줄인다는 것을 보여준다.

ABSTRACT

Recent progress in computer vision has been driven by high-capacity models trained on large datasets. Unfortunately, creating large datasets with pixel-level labels has been extremely costly due to the amount of human effort required. In this paper, we present an approach to rapidly creating pixel-accurate semantic label maps for images extracted from modern computer games. Although the source code and the internal operation of commercial games are inaccessible, we show that associations between image patches can be reconstructed from the communication between the game and the graphics hardware. This enables rapid propagation of semantic labels within and across images synthesized by the game, with no access to the source code or the content. We validate the presented approach by producing dense pixel-level semantic annotations for 25 thousand images synthesized by a photorealistic open-world computer game. Experiments on semantic segmentation datasets show that using the acquired data to supplement real-world images significantly increases accuracy and that the acquired data enables reducing the amount of hand-labeled real-world data: models trained with game data and just 1/3 of the CamVid training set outperform models trained on the complete CamVid training set.

연구 동기 및 목표

수동 데이터셋을 넘어 야외 환경에 대한 대규모 픽셀-정확 semantic 라벨링을 촉진한다.
상용 게임이 분류 모델 학습에 다양하고 사진실감적인 데이터를 제공함을 보여준다.
게임 소스 코드에 접근하지 않고 지속적인 객체 시그니처를 추출하기 위한 detouring 기반 파이프라인을 개발한다.
레이블을 프레임 및 인스턴스 간에 자동으로 전파하여 주석 작성을 가속화한다.
게임에서 얻은 데이터가 실제 세계의 세그먼트 성능을 향상시키고 필요한 실제 라벨의 양을 줄임을 입증한다.

제안 방법

렌더링 리소스 사용을 기록하기 위해 detouring을 통해 게임-대-GPU 렌더링 파이프라인을 가로챈다.
메시(mesh), 텍스처, 셰이더를 해시하고 영구적으로 식별하여 세션 간에 안정된 객체 시그니처를 생성한다.
프레임당 두 번의 패스를 렌더링한다: 일반 컬러 패스와 두 번째 패스는 각 픽셀의 메시/텍스처/셰이더 ID를 인코딩한다.
공유된 MTS (mesh-texture-shader)로 정의된 패치로 이미지를 분해하여 의미 단위를 형성한다.
리소스를 공유하는 패치들 간에 라벨을 자동으로 전파하기 위해 연관 규칙 마이닝을 사용한다.
수동 라벨링 시간을 줄이는 빠른 라벨 전파를 갖춘 인터랙티브 주석 인터페이스.

실험 결과

연구 질문

RQ1상용 게임의 이미지에서 소스 코드에 접근하지 않고도 픽셀-정확 semantic 라벨을 생성할 수 있는가?
RQ2합성 게임 데이터가 실제 세계의 야외 데이터셋에서 의미 분할 성능을 향상시키는가?
RQ3게임에서 파생된 주석을 활용하여 실제 세계 라벨링 노력을 얼마나 줄일 수 있는가?
RQ4지속 가능한 렌더링 자원 시그니처를 사용하여 시간과 인스턴스 간에 레이블이 얼마나 효과적으로 전파될 수 있는가?
RQ5훈련 강건성에 대한 게임 생성 데이터의 다양성과 현실감 영향은 무엇인가?

주요 결과

24,966개의 GTA5 프레임에 대한 라벨이 49시간 만에 작성되어 픽셀 영역의 98.3%를 라벨링했다.
연산을 통한 전파를 통해 사전에 주석이 달린 영역은 데이터셋의 98.3%와 MTS 및 규칙을 통한 누적 픽셀 면적의 73%를 차지했다.
게임 데이터와 1/3 CamVid 훈련 데이터를 함께 사용하면 CamVid의 평균 IoU가 3.9%포인트 향상된다.
게임 데이터와 1/3 CamVid를 더한 모델은 CamVid의 전체 훈련 세트로 학습된 모델을 능가한다.
KITTI에서 게임 데이터를 사용하면 실제 데이터만으로 학습한 경우보다 2.6% 포인트 향상이다.
실험 전반에 걸쳐 합성 게임 데이터로 보강된 학습은 실제 데이터만을 사용하는 기반보다 성능이 우수하면서 수작업 라벨링 부담을 줄인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.