QUICK REVIEW

[논문 리뷰] Scalable 3D Captioning with Pretrained Models

Tiange Luo, Chris Rockwell|arXiv (Cornell University)|2023. 06. 12.

Multimodal Machine Learning Applications인용 수 20

한 줄 요약

Cap3D는 다중 시점 렌더링을 다합쳐 3D 객체에 대한 서술적 캡션을 자동으로 생성하고, 사전 학습 이미지 캡션화, 이미지-텍스트 정렬, LLM을 통해 대규모 3D-텍스트 데이터를 가능하게 하며 텍스트-3D 성능을 경쟁력 있게 만든다.

ABSTRACT

We introduce Cap3D, an automatic approach for generating descriptive text for 3D objects. This approach utilizes pretrained models from image captioning, image-text alignment, and LLM to consolidate captions from multiple views of a 3D asset, completely side-stepping the time-consuming and costly process of manual annotation. We apply Cap3D to the recently introduced large-scale 3D dataset, Objaverse, resulting in 660k 3D-text pairs. Our evaluation, conducted using 41k human annotations from the same dataset, demonstrates that Cap3D surpasses human-authored descriptions in terms of quality, cost, and speed. Through effective prompt engineering, Cap3D rivals human performance in generating geometric descriptions on 17k collected annotations from the ABO dataset. Finally, we finetune Text-to-3D models on Cap3D and human captions, and show Cap3D outperforms; and benchmark the SOTA including Point-E, Shape-E, and DreamFusion.

연구 동기 및 목표

대규모 이미지-텍스트 모델을 활용하여 고품질 3D 캡션의 부족성과 비용 문제를 해결한다.
3D 에셋에 대해 정확하고 다중 시점을 포함한 캡션을 생성하기 위한 확장 가능한 파이프라인을 만든다.
Objaverse에서 Cap3D를 평가해 대규모 3D-텍스트 데이터세트를 생성하고 인간 캡션과 비교한다.
ABO를 활용한 기하학적 캡션 능력을 조사하고 프롬프트 기반 QA 개선을 탐구한다.

제안 방법

Blender를 사용하여 각 3D 객체의 다중 2D 뷰를 렌더링한다 (M=8 views).
BLIP2 이미지 캡션 작성으로 뷰당 N=5개의 캡션을 생성한다.
CLIP 이미지-텍스트 정렬로 뷰-캡션 쌍을 선택하기 위해 캡션을 필터링한다.
선택된 뷰 캡션을 GPT-4를 사용해 요약하고 뷰 간 정보를 융합하여 최종 캡션으로 통합한다.
선택적으로 세부 기하를 강조하기 위한 두 단계 QA 프롬프트를 적용한다 (Cap3D QA).
비배포 자산(face/NSFW)을 제거하고 언어 필터링을 적용하여 데이터셋을 윤리적으로 필터링한다.

Figure 1: Cap3D provides detailed descriptions of 3D objects by leveraging pretrained models in captioning, alignment, and LLM to consolidate multi-view information. Two views of 3D objects are shown here, Cap3D uses eight. Additional examples are available in Appendix B .

실험 결과

연구 질문

RQ1Cap3D가 수동 주석 없이도 대규모로 고품질 다중 뷰 캡션을 생성할 수 있는가?
RQ2뷰 기반 캡션을 LLM으로 통합하는 것이 단일 뷰 캡션과 비교해 세부 사항과 정확도 측면에서 어떤 차이가 있는가?
RQ33D 주석의 캡션 품질, 비용, 속도 간 트레이드오프가 크라우드소싱에 비해 어떤가?
RQ4Cap3D 캡션이 사람 캡션과 비교해 텍스트-투-3D 모델 파인튜닝의 다운스트림 효과를 얼마나 잘 지원하는가?
RQ5QA를 통한 프롬프팅이 ABO 유사 데이터셋의 기하학적 세부 정보를 개선하는가?

주요 결과

Cap3D 캡션은 Objaverse에서 품질, 비용, 속도 면에서 크라우드소싱 캡션을 능가한다(인간은 A/B 테스트에서 Cap3D를 약 52% 대 38%로 선호; Cap3D는 약 8.35 대 인간의 약 87.18달러/1k 주석; Cap3D는 하루에 약 65k 객체 처리, 인간은 1.4k).
CLIP 필터링(Cap3D)을 사용하면 부정확한 세부 정보가 줄고 토큰 사용이 감소하며 비용이 $15.33에서 $4.18로 줄어든다.
뷰 간 GPT-4 기반 통합은 단일 뷰 방법보다 더 풍부하고 일관된 객체 설명을 만들어낸다.
Cap3D 캡션으로 최첨단 텍스트-투-3D 모델(Point·E, Shap·E)를 파인튜닝하면 CLIP 기반 지표와 Objaverse 데이터의 FID가 개선되며 종종 사전 학습 기반 대비를 능가한다.
Cap3D QA 프롬프트는 ABO 데이터에서 기하학적 포커스 캡션을 가능하게 하여 인간 수준의 세부에 근접하고 표준 자동 캡션보다 우수하다.
Cap3D가 생성한 캡션은 텍스트-투-3D 모델의 확장 가능하고 데이터 효율적인 파인튜닝을 가능하게 하며 Objaverse에서 큰 3D-텍스트 데이터세트(660k 쌍)를 구축한다.

Figure 2: Overview of Cap3D . Left to Right: (1) Render 3D objects from $M=8$ camera angles to capture object details (2) Generate $N=5$ image captions per rendered image using BLIP2; (3) Select one caption for each image based on its similarity to the image encoding using CLIP; (4) Use GPT4 to cons

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.