QUICK REVIEW

[논문 리뷰] Mixing Real and Synthetic Data to Enhance Neural Network Training -- A Review of Current Approaches

Viktor Seib, Benjamin P. Lange|arXiv (Cornell University)|2020. 07. 17.

Advanced Neural Network Applications참고 문헌 45인용 수 23

한 줄 요약

이 논문은 도시 및 교통 환경에서의 컴퓨터 비전 분야에서 딥 네ural 네트워크 학습을 향상시키기 위한 기술을 검토한다. 특히 실제 데이터와 합성 데이터를 혼합하여 적용함으로써 도메인 분리 문제를 완화하고 성능을 향상시키는 방법을 제시한다. GTA5와 SYNTHIA를 합성 데이터 소스로 사용하여 Cityscapes에서 최신 기술 성능을 달성하였다.

ABSTRACT

Deep neural networks have gained tremendous importance in many computer vision tasks. However, their power comes at the cost of large amounts of annotated data required for supervised training. In this work we review and compare different techniques available in the literature to improve training results without acquiring additional annotated real-world data. This goal is mostly achieved by applying annotation-preserving transformations to existing data or by synthetically creating more data.

연구 동기 및 목표

제한된 실제 데이터에 대한 애너테이션을 바탕으로 딥 네ural 네트워크 성능을 향상시키기 위한 방법을 조사한다.
비용이 많이 드는 실제 데이터 애너테이션에 대한 의존도를 줄이기 위해 합성 데이터의 효과성을 평가한다.
실제 데이터와 합성 데이터를 혼합함으로써 도시 환경 이해에서 발생하는 도메인 분리 문제를 어떻게 완화할 수 있는지 분석한다.
전이 학습 및 피니팅에 있어서 합성 데이터를 사용하는 데 있어 최적의 실천 방법을 규명한다.
미래의 컴퓨터 비전 응용 분야를 위해 GAN 기반으로 생성된 사진처럼 생긴 합성 데이터셋의 잠재력을 탐색한다.

제안 방법

일반화 성능 향상을 위해 기하학적 변형, 색상 왜곡, CutOut 등의 기존 데이터 증강 기법을 검토한다.
저자료 환경에서의 성능 향상을 위해 ImageNet으로 사전 학습된 모델을 활용한 전이 학습 및 피니팅 전략을 조사한다.
SYNTHIA 및 GTA5와 같은 합성 도시 환경 데이터셋의 분석을 포함하여, 학습 프로토콜과 평가 지표를 검토한다.
도메인 랜덤라이제이션 및 GAN 기반 이미지 번역에서의 스타일 전이와 같은 도메인 분리 완화 기법을 평가한다.
최근의 GAN 기반 접근법을 분석하여, 세그먼테이션 맵을 사진처럼 생긴 이미지로 변환함으로써 고해상도 합성 데이터 생성을 가능하게 한다.
세그먼테이션 맵 합성, 객체 삽입, GAN 기반 이미지 번역을 통한 합성 데이터 생성 파이프라인을 제안한다.

실험 결과

연구 질문

RQ1실제 데이터만 사용하는 것과 비교해, 실제 데이터와 합성 데이터를 혼합할 경우 도시 환경 벤치마크에서 모델 성능은 어떻게 달라지는가?
RQ2합성 데이터만으로도 정밀한 세그먼테이션 및 객체 탐지 모델을 충분히 강력하게 훈련시킬 수 있는가?
RQ3합성 데이터로 훈련할 경우 도메인 분리를 최소화하기 위해 가장 효과적인 기법은 무엇인가?
RQ4다양한 데이터 증강 및 전이 학습 전략은 제한된 실제 데이터에서 모델 일반화 성능에 어떤 영향을 미치는가?
RQ5GAN 기반 이미지 번역 방법은 얼마나 현실적인 합성 도시 환경 이미지를 생성하는 데 기여하는가?

주요 결과

GTA5와 SYNTHIA에서 유래한 합성 데이터를 실제 Cityscapes 데이터와 혼합하면, 합성 데이터만으로 훈련하는 것보다 도메인 분리를 크게 감소시키고 성능을 향상시킨다.
실제 이미지로 훈련하는 것이 여전히 최상의 성능을 내지만, 실제 데이터와 합성 데이터를 조합한 훈련 방식이 합성 데이터 전용 훈련보다 뛰어난 성능을 보인다.
합성 데이터는 큰 영역을 차지하는 배경 클래스 훈련에 특히 효과적이지만, 전경 객체의 질감 처리에는 어려움을 겪는다.
객체 탐지 모델은 세그먼테이션 모델보다 합성 데이터로부터 더 큰 이점을 얻는다. 이는 객체 수준의 특징을 더 잘 처리하기 때문이다.
ImageNet으로 사전 학습된 모델은 강력한 베이스라인 역할을 하며, 피니팅을 통한 전이 학습은 작은 데이터셋에서 일관되게 성능 향상을 이끈다.
최근의 GAN 기반 기법을 통해 세그먼테이션 맵을 사진처럼 생긴 이미지로 변환하는 방법은 곧바로 대규모이고 현실적인 합성 데이터셋을 생성할 잠재력을 보이고 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.