QUICK REVIEW

[논문 리뷰] Semantic-aware Grad-GAN for Virtual-to-Real Urban Scene Adaption

Peilun Li, Xiaodan Liang|arXiv (Cornell University)|2018. 01. 05.

Advanced Vision and Imaging참고 문헌 41인용 수 58

한 줄 요약

SG-GAN 소개: 의미 인식적이고 그래디언트 가이드 방식인 GAN으로 가상-실도시 도시 씬 적응을 수행하며 의미 경계를 보존하고 영역별 질감을 렌더링하기 위해 의미 인식 판별기를 사용하여 다운스트림 의미 분할 성능을 향상시킵니다.

ABSTRACT

Recent advances in vision tasks (e.g., segmentation) highly depend on the availability of large-scale real-world image annotations obtained by cumbersome human labors. Moreover, the perception performance often drops significantly for new scenarios, due to the poor generalization capability of models trained on limited and biased annotations. In this work, we resort to transfer knowledge from automatically rendered scene annotations in virtual-world to facilitate real-world visual tasks. Although virtual-world annotations can be ideally diverse and unlimited, the discrepant data distributions between virtual and real-world make it challenging for knowledge transferring. We thus propose a novel Semantic-aware Grad-GAN (SG-GAN) to perform virtual-to-real domain adaption with the ability of retaining vital semantic information. Beyond the simple holistic color/texture transformation achieved by prior works, SG-GAN successfully personalizes the appearance adaption for each semantic region in order to preserve their key characteristic for better recognition. It presents two main contributions to traditional GANs: 1) a soft gradient-sensitive objective for keeping semantic boundaries; 2) a semantic-aware discriminator for validating the fidelity of personalized adaptions with respect to each semantic region. Qualitative and quantitative experiments demonstrate the superiority of our SG-GAN in scene adaption over state-of-the-art GANs. Further evaluations on semantic segmentation on Cityscapes show using adapted virtual images by SG-GAN dramatically improves segmentation performance than original virtual data. We release our code at https://github.com/Peilun-Li/SG-GAN.

연구 동기 및 목표

주석 부하를 줄이기 위해 자동으로 생성된 가상 세계 주석의 지식을 실제 세계 인지 작업으로 전달하는 것을 목표로 한다.
의미 영역(예: 도로, 자동차) 간 appearance를 적응시키면서 의미 정보를 보존하여 실제 세계 분포에 더 가깝게 만들기.
적응 과정에서 의미 경계를 유지하기 위한 소프트 그래디언트-민감 손실을 도입한다.
의미 영역별 적합도를 평가하는 의미 인식 판별기를 도입하여 전역적 균일 변경을 피한다.

제안 방법

가상->실제 및 실제->가상 적응을 위한 두 개의 생성기와 두 개의 의미 인식 판별기를 갖춘 SG-GAN을 제안한다.
적대적 손실, 사이클-일관성 손실, 그리고 이미지 기울기가 의미 경계와 정렬되도록 하는 새로운 소프트 그래디언트-민감 손실을 포함한다.
경계 일치 기울기 차이에 초점을 맞춘 L_grad를 정의하여 영역별 질감 변화를 가능하게 한다.
의미 영역 인식 리얼리즘을 강제하기 위해 SD_V와 SD_R을 개발하고, 원-핫 의미 마스크를 사용해 판별기 특징을 조절한다.
쌍이 없는 GTA-V 및 Cityscapes 데이터로 학습하고, 데이터 규모 효과를 연구하기 위해 SG-GAN-2K 및 SG-GAN-25K 변형을 사용한다.
적응된 가상 데이터를 사용한 Cityscapes 분할에서 향상된 성능을 보여주기 위해 평가한다.

실험 결과

연구 질문

RQ1가상-세계에 라벨링된 데이터를 실제 세계 분포로 효과적으로 변환하면서 의미 무결성을 잃지 않고 유지할 수 있는가?
RQ2그래디언트 민감 목표와 의미 인식 판별기가 가상-실제 적응 과정에서 경계 보존과 영역별 질감 렌더링을 개선하는가?
RQ3가상 세계의 학습 데이터를 늘리는 것이 적응 및 다운스트림 분할 성능을 얼마나 향상시키는가?

주요 결과

방법	픽셀 정확도	클래스 정확도	클래스 IOU
Baseline	54.51	35.95	24.60
Hoffman et al. [18]	–	–	27.10
CycleGAN [47]	71.61	42.98	28.15
SG-GAN-2K	72.65	45.87	33.81
SG-GAN-25K	81.72	47.29	37.43

SG-GAN은 기본선에 비해 의미 경계가 더 선명하고 영역별 질감이 더 섬세하게 표현되는 것을 보여준다.
A/B 테스트에서 SG-GAN이 현실감 판단에서 CycleGAN, DualGAN, SimGAN, BiGAN보다 우수한 것으로 나타났다.
SG-GAN으로 GTA-V 데이터를 적응하면 원래 가상 데이터만 사용할 때보다 Cityscapes 의미 분할 성능이 크게 향상된다.
의미 인식 판별기는 전역 판별기로 포착되지 않는 영역별 톤과 질감 변화(예: 신호등, 하늘)를 가능하게 한다.
가상 데이터 규모를 2K에서 25K로 증가시키면 현실감과 분할 지표에 추가적이지만 점진적인 이점이 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.