QUICK REVIEW

[논문 리뷰] Scenic: Language-Based Scene Generation.

Daniel J. Fremont, Xiangyu Yue|arXiv (Cornell University)|2018. 09. 25.

Adversarial Robustness in Machine Learning참고 문헌 32인용 수 22

한 줄 요약

이 논문은 물리적이고 공간적인 관계를 객체 간에 인코딩하여 합성 시나리오를 생성하기 위한 도메인 특화 확률 프로그래밍 언어인 Scenic을 소개한다. 경계 조건이 있는 분포로 시나리오를 모델링함으로써 Scenic은 현실적이고 다양한 훈련 데이터를 생성하는 시나리오 즉흥연주를 가능하게 하여, 다양한 상황에서 컨volutional 네트워크(CNN)의 차량 검출 성능을 크게 향상시킨다.

ABSTRACT

Synthetic data has proved increasingly useful in both training and testing machine learning models such as neural networks. The major problem in synthetic data generation is producing meaningful data that is not simply random but reflects properties of real-world data or covers particular cases of interest. In this paper, we show how a probabilistic programming language can be used to guide data synthesis by encoding domain knowledge about what data is useful. Specifically, we focus on data sets arising from configurations of physical objects; for example, images of cars on a road. We design a domain-specific language, Scenic, for describing scenarios that are distributions over scenes. The syntax of Scenic makes it easy to specify complex relationships between the positions and orientations of objects. As a probabilistic programming language, Scenic allows assigning distributions to features of the scene, as well as declaratively imposing hard and soft constraints over the scene. A Scenic scenario thereby implicitly defines a distribution over scenes, and we formulate the problem of sampling from this distribution as scene improvisation. We implement an improviser for Scenic scenarios and apply it in a case study generating synthetic data sets for a convolutional neural network designed to detect cars in road images. Our experiments demonstrate the usefulness of our approach by using Scenic to analyze and improve the performance of the network in various scenarios.

연구 동기 및 목표

실제 세계의 물리적 구성 방식을 반영하는 의미 있는 비난이 되는 합성 데이터를 생성하는 데 도전하는 것.
시나리오 내 객체 간의 복잡한 공간적 및 관계적 제약 조건을 정확하게 기술하는 것.
다양하고 현실적인 훈련 데이터를 생성하기 위해 시나리오 분포에서 자동으로 샘플링하는 시스템을 개발하는 것.
Scenic을 통해 생성된 합성 시나리오를 활용한 데이터 증강을 통해 딥 러닝 모델의 강건성과 일반화 능력을 향상시키는 것.
Scenic이 복잡한 도로 환경에서 CNN의 차량 검출 성능 향상에 어떻게 기여하는지 보여주는 것.

제안 방법

공간적 및 물리적 제약 조건을 고려하여 시나리오 생성에 특화된 도메인 특화 확률 프로그래밍 언어인 Scenic을 설계하는 것.
확률 분포를 사용하여 객체의 위치, 방향 및 관계를 선언적으로 기술할 수 있는 문법을 정의하는 것.
경직된 제약 조건(예: 객체 X는 객체 Y의 앞에 있어야 함)과 부드러운 제약 조건(예: 객체들은 합리적인 거리로 배치되어야 함)을 모두 지원하는 것.
시나리오 샘플링을 '시나리오 즉흥연주'로 정의하는 것—정의된 확률적 및 제약 기반 모델에 따라 유효한 시나리오를 생성하는 과정.
시나리오 구성의 연합 분포에서 효율적으로 샘플링하는 즉흥연주 엔진을 구현하는 것.
생성된 합성 데이터를 활용하여 도로 시나리오에서의 차량 검출을 위한 컨volutional 신경망을 훈련하고 평가하는 것.

실험 결과

연구 질문

RQ1확률 프로그래밍 언어가 물리적 시나리오에 대한 도메인 지식을 효과적으로 인코딩하여 합성 데이터 생성을 이끌 수 있는가?
RQ2Scenic은 객체 간의 복잡한 공간적 관계를 반영하는 다양한 현실적인 시나리오를 얼마나 잘 생성할 수 있는가?
RQ3Scenic이 생성한 합성 데이터는 객체 검출을 위한 딥 러닝 모델의 성능과 강건성에 얼마나 기여하는가?
RQ4Scenic의 경직된 제약 조건과 부드러운 제약 조건은 샘플링된 시나리오의 다양성과 현실성에 어떻게 영향을 미치는가?
RQ5Scenic을 통한 시나리오 즉흥연주가 다양한 도전적인 현실 세계 시나리오에 일반화되는 데 더 나은 훈련 데이터를 생성할 수 있는가?

주요 결과

Scenic은 확률과 제약 조건을 통합한 선언적 고수준 문법을 사용하여 객체 간의 복잡한 공간적 관계를 성공적으로 모델링한다.
시나리오 즉흥연주 과정은 정의된 분포와 제약 조건을 반영한 다양한 유효한 시나리오를 생성한다.
Scenic이 생성한 합성 데이터셋은 특히 드문 또는 복잡한 구성에서 차량 검출을 위한 CNN의 일반화 능력을 향상시킨다.
부드러운 제약 조건을 포함시킬 경우 순수하게 무작위 또는 엄격한 제약 조건만 있는 경우보다 더 현실적이고 다양한 시나리오 샘플을 생성한다.
이러한 접근은 다양한 시나리오 구성에서 모델 성능을 체계적으로 분석할 수 있게 하여, 실제 데이터에서는 드러나지 않는 실패 모드를 드러낸다.
사례 연구는 Scenic이 생성한 데이터가 가림되거나 서로 가까이 붙어 있는 차량과 같은 극단적인 케이스에서 모델의 강건성을 향상시킨다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.