QUICK REVIEW

[논문 리뷰] PolyGen: An Autoregressive Generative Model of 3D Meshes

Charlie Nash, Yaroslav Ganin|arXiv (Cornell University)|2020. 02. 23.

3D Shape Modeling and Analysis참고 문헌 29인용 수 65

한 줄 요약

PolyGen은 Transformer 기반의 정점 모델과 메쉬-포인터 면 모델을 사용하여 3D 메쉬를 자기회귀 시퀀스로 직접 모델링하므로 조건부 및 비조건부로 고품질 메쉬 생성을 가능하게 한다.

ABSTRACT

Polygon meshes are an efficient representation of 3D geometry, and are of central importance in computer graphics, robotics and games development. Existing learning-based approaches have avoided the challenges of working with 3D meshes, instead using alternative object representations that are more compatible with neural architectures and training approaches. We present an approach which models the mesh directly, predicting mesh vertices and faces sequentially using a Transformer-based architecture. Our model can condition on a range of inputs, including object classes, voxels, and images, and because the model is probabilistic it can produce samples that capture uncertainty in ambiguous scenarios. We show that the model is capable of producing high-quality, usable meshes, and establish log-likelihood benchmarks for the mesh-modelling task. We also evaluate the conditional models on surface reconstruction metrics against alternative methods, and demonstrate competitive performance despite not training directly on this task.

연구 동기 및 목표

프록시 표현 대신 3D 메쉬의 직접 생성 모델링을 동기 부여한다.
메시를 위한 자기회귀의 두 부분 모델(정점 생성 followed by 면 생성)을 제안한다.
다양한 입력(클래스, 이미지, 복셀)에 대한 조건화를 가능하게 하고 메쉬 생성의 불확실성을 정량화한다.
로그가능도와 예측 정확도로 평가하고 기준선 및 대체 메쉬 표현과 비교한다.

제안 방법

Two-part autoregressive Mesh Model: 정점 모델은 양자화된 정점 좌표의 시퀀스를 예측하고, 면 모델은 생성된 정점을 조건으로 정점 인덱스의 시퀀스를 예측한다.
정점 모델은 이산 8비트 양자화 좌표와 종료 토큰을 갖는 Transformer 디코더를 사용한다.
면 모델은 Transformer와 포인터-네트워크 메커니즘을 사용하여 가변 길이의 정점 인덱스 시퀀스를 생성하고, 유효한 예측을 보장하기 위한 마스킹을 적용한다.
선택적 조건 컨텍스트 h(클래스, 이미지, 또는 복셀)는 글로벌 조건 또는 인코더에 대한 교차 어텐션을 위한 추가 벡터를 통해 통합된다.
평가 시 유효하지 않은 예측의 마스킹이 적용되며, 훈련은 마스킹되지 않은 가능도 최적화를 사용한다.
데이터 증강, 복셀/이미지 조건화, 임베딩 선택이 로그 가능도와 정확도에 미치는 영향을 평가한다.

실험 결과

연구 질문

RQ1직접 메쉬 생성 모델이 후처리 없이도 고품질의 사용 가능한 메쉬를 생성할 수 있는가?
RQ2Transformer 기반의 정점과 포인터 기반 면 모델이 메쉬 정점과 면의 결합 분포를 얼마나 잘 포착하는가?
RQ3조건 입력(클래스, 이미지, 복셀)이 정점/면 모델링 성능에 어떤 영향을 미치는가?
RQ4이산 정점 표현과 데이터 증강이 모델링 효율성과 정확도에 어떤 영향을 주는가?
RQ5폴리젠은 Draco 및 균일 모델과 같은 기준선에 비해 무조건적 vs 조건부 메쉬 생성에서 어떤 성능을 보이는가?

주요 결과

모델	정점	면	정점	면
Uniform	24.08	39.73	0.004	0.002
Valid predictions	21.41	25.79	0.009	0.038
Draco*	Total: 27.68	-	-	-
PolyGen	2.46	1.79	0.851	0.900
- valid predictions	2.47	1.82	0.851	0.900
- discr. embed. (V)	2.56	-	0.844	-
- data augmentation	3.39	2.52	0.803	0.868
+ cross attention (F)	-	1.87	-	0.899

무조건적 PolyGen은 정점당 로그-가능도 4.26 비트, 85% 정점 정확도 및 90% 면 정확도를 달성했다.
이산 8비트 정점 임베딩은 비트-당 정점 수를 2.56에서 2.46으로 개선하고 전체 예측 성능을 향상시켰다.
데이터 증강은 성능을 크게 개선하여 평균적으로 비트-당 정점 수를 약 1.64 감소시켰다.
면 모델의 교차 주의는 그들의 설정에서 과적합으로 인해 성능 저하를 가져온다.
조건부 모델(클래스, 이미지, 복셀)은 정점 모델링을 향상시키고, 복셀 조건화가 가장 큰 이점을 주었으며, 면 조건화는 거의 이익이 없거나 음의 이익을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.