QUICK REVIEW

[논문 리뷰] Interactive 3D Modeling with a Generative Adversarial Network

Jerry Liu, Fisher Yu|arXiv (Cornell University)|2017. 06. 16.

Computer Graphics and Visualization Techniques참고 문헌 28인용 수 21

한 줄 요약

이 논문은 사용자가 그린 원시적인 스케치를 현실적으로 세밀한 3D 형태로 변환하는 데 3D 생성적 적대적 네트워크(GAN)를 사용하는 새로운 상호작용형 3D 모델링 시스템인 SNAP을 소개한다. 사용자가 제공한 바voxel 그리드를 GAN의 잠재공간에 투영함으로써 시스템은 형태 유사성과 현실성 사이의 균형을 이루며, 초보자 사용자가 간단한 인터페이스를 통해 반복적으로 모델을 개선할 수 있도록 한다.

ABSTRACT

This paper proposes the idea of using a generative adversarial network (GAN) to assist a novice user in designing real-world shapes with a simple interface. The user edits a voxel grid with a painting interface (like Minecraft). Yet, at any time, he/she can execute a SNAP command, which projects the current voxel grid onto a latent shape manifold with a learned projection operator and then generates a similar, but more realistic, shape using a learned generator network. Then the user can edit the resulting shape and snap again until he/she is satisfied with the result. The main advantage of this approach is that the projection and generation operators assist novice users to create 3D models characteristic of a background distribution of object shapes, but without having to specify all the details. The core new research idea is to use a GAN to support this application. 3D GANs have previously been used for shape generation, interpolation, and completion, but never for interactive modeling. The new challenge for this application is to learn a projection operator that takes an arbitrary 3D voxel model and produces a latent vector on the shape manifold from which a similar and realistic shape can be generated. We develop algorithms for this and other steps of the SNAP processing pipeline and integrate them into a simple modeling tool. Experiments with these algorithms and tool suggest that GANs provide a promising approach to computer-assisted interactive modeling.

연구 동기 및 목표

초보자 사용자가 간단하고 직관적인 인터페이스를 통해 현실적인 3D 모델을 생성할 수 있도록 하는 데 도전하는 것.
GAN이 중간 잠재공간에서 비현실적인 출력을 생성하는 한계를 극복하기 위해 현실성을 보장하는 투영 연산자 설계하는 것.
반복 편집과 실시간 개선을 지원하는 상호작용형 모델링 파이프라인에 3D-GAN을 통합하는 것.
GAN 기반 생성 기법이 사용자 가이드형이고 형태를 유지하는 3D 모델링에 효과적으로 활용될 수 있음을 입증하는 것.
최소 120개의 일관된 방향을 가진 예제가 각각 포함된 101개의 3D 객체 클래스로 구성된 새로운 데이터셋을 제공하는 것.

제안 방법

대규모이고 철저히 선별된 3D 다각형 모델 데이터셋을 기반으로 훈련된 3D-GAN이 현실적인 형태의 잠재 다양체를 학습하도록 한다.
사용자 입력의 3D voxel 입력 x를 GAN의 잠재공간 내 잠재 벡터 z로 매핑하는 새로운 투영 연산자 P(x)를 제안하며, 형태 유사성과 현실성 양쪽을 최적화한다.
GAN의 판별기로 현실성 지표를 사용하고 특징 공간을 가이드로 활용하여 잠재공간 내 최적화를 통해 투영을 구현한다.
SNAP 명령어는 G(P(x))를 적용하여 사용자의 편집을 유지하면서도 현실성 향상을 이룬 개선된 형태 x′를 생성한다.
후처리 단계로 작은 voxel 성분을 제거하고 대칭 형태를 반영하여 출력 품질을 향상시킨다.
인터페이스는 사용자가 voxel 페인팅(추가/삭제)과 SNAP 명령어를 반복 워크플로우에서 번갈아 사용할 수 있도록 한다.

실험 결과

연구 질문

RQ13D-GAN이 원시적인 사용자 스케치를 현실적인 형태로 변환함으로써 상호작용형 3D 모델링을 효과적으로 이끌 수 있는가?
RQ2사용자 입력의 유사성과 GAN에 의해 생성된 현실성 사이의 균형을 유지할 수 있도록 투영 연산자를 어떻게 설계할 수 있는가?
RQ3GAN 기반 시스템이 최소한의 입력으로 세밀하고 현실적인 3D 모델을 초보자 사용자가 얼마나 효과적으로 생성하는 데 도움을 줄 수 있는가?
RQ4이러한 시스템의 실패 모드는 훈련 데이터의 한계나 최적화의 상충 관계와 어떻게 관련되어 있는가?
RQ5사용자 편집, 예를 들어 비율이나 특징의 수정에 대응하면서도 스타일 일관성을 유지할 수 있는가?

주요 결과

SNAP 시스템은 입력과 유사하면서도 실제 세계의 객체 클래스를 잘 대표하는 현실적인 3D 모델로 원시적인 voxel 스케치를 성공적으로 변환한다.
사용자는 반복적으로 편집하고 SNAP을 적용할 수 있으며, 각 SNAP 작업이 사용자 의도를 유지하면서도 현실성을 향상시킴을 의자, 비행기, 테이블의 편집 시퀀스를 통해 입증한다.
NVIDIA Tesla M40 GPU에서 평균 9초의 SNAP 작업 시간을 기록하여, 현재의 지연 시간에도 불구하고 실행 가능성은 입증된다.
투영 연산자는 입력을 GAN 다양체의 현실적인 영역으로 효과적으로 매핑하여 중간 영역에서 비현실적인 출력을 생성하는 것을 방지한다.
시스템은 때때로 비현실적인 형태를 생성하거나(예: 훈련 데이터가 제한되어 있어), 사용자 의도에서 벗어나 의도하지 않은 기능(예: 소파에 다리를 추가)을 추가함으로써 실존성과 유사성 사이의 상충 관계를 드러낸다.
작은 성분 제거 및 대칭 기반 반사 등의 후처리 단계는 출력 품질과 현실성 향상에 크게 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.