[논문 리뷰] Benchmarking Spatial Relationships in Text-to-Image Generation
이 논문은 텍스트-투-이미지 모델의 공간 이해를 평가하기 위한 새로운 자동 메트릭 VISOR와 두 객체 공간 관계를 설명하는 25,280개의 문장으로 구성된 대규모 데이터셋 SR 2D를 소개하여 최첨단 T2I 모델을 벤치마크합니다. 사진 현실성은 공간 정확도를 시사하지 않으며, 객체 생성 및 관계 렌더링에 뚜렷한 편향이 드러납니다.
Spatial understanding is a fundamental aspect of computer vision and integral for human-level reasoning about images, making it an important component for grounded language understanding. While recent text-to-image synthesis (T2I) models have shown unprecedented improvements in photorealism, it is unclear whether they have reliable spatial understanding capabilities. We investigate the ability of T2I models to generate correct spatial relationships among objects and present VISOR, an evaluation metric that captures how accurately the spatial relationship described in text is generated in the image. To benchmark existing models, we introduce a dataset, $\mathrm{SR}_{2D}$, that contains sentences describing two or more objects and the spatial relationships between them. We construct an automated evaluation pipeline to recognize objects and their spatial relationships, and employ it in a large-scale evaluation of T2I models. Our experiments reveal a surprising finding that, although state-of-the-art T2I models exhibit high image quality, they are severely limited in their ability to generate multiple objects or the specified spatial relations between them. Our analyses demonstrate several biases and artifacts of T2I models such as the difficulty with generating multiple objects, a bias towards generating the first object mentioned, spatially inconsistent outputs for equivalent relationships, and a correlation between object co-occurrence and spatial understanding capabilities. We conduct a human study that shows the alignment between VISOR and human judgement about spatial understanding. We offer the $\mathrm{SR}_{2D}$ dataset and the VISOR metric to the community in support of T2I reasoning research.
연구 동기 및 목표
- 현대의 텍스트-투-이미지 모델이 텍스트 프롬프트에 설명된 공간 관계를 정확하게 렌더링할 수 있는지 평가한다.
- T2I 출력에서 공간 이해를 정량화하기 위한 자동화되고 인간 정합적인 메트릭을 제공한다.
- 모델 벤치마킹을 위해 일반적인 객체와 2D 공간 관계를 포착하는 대규모 데이터셋(SR 2D)을 만든다.
- 객체 동시출현과 공간 이해 간의 상관관계 및 편향, 실패 모드를 조사한다.
제안 방법
- VISOR 메트릭을 정의하여 이미지에서 생성된 객체 간의 공간 관계를 확인한다.
- 80 MS-COCO 객체 간의 좌/우/상/하 관계를 설명하는 25,280개의 프롬프트로 SR 2D 데이터셋을 구성한다.
- 오브젝트 검출기(OWL-ViT with CLIP backbone)를 사용하여 생성된 이미지에서 객체를 탐지하고 공간 관계를 추론한다.
- 네 가지 이미지당 프롬프트를 대상으로 선도적인 여러 T2I 모델(GLIDE, DALLE-mini, CogView2, DALLE-v2, Stable Diffusion 및 변형)을 벤치마크한다.
- VISOR와 공간 이해에 대한 인간 판단 간의 정합성을 검증하기 위해 인간 연구(MTurk)를 수행한다.
실험 결과
연구 질문
- RQ1최신 텍스트-투-이미지 모델이 다중 객체 간의 지정된 공간 관계를 신뢰할 수 있게 렌더링하는가?
- RQ2기존의 자동 멀티모달 메트릭(CLIPScore, 자막 기반 메트릭 등)이 실제 공간 정확성과 어떻게 상관관계를 보이는가?
- RQ3다중 객체 및 그들의 공간 관계를 생성하는 데 있어 주요 실패 모드와 편향은 무엇인가?
- RQ4VISOR가 T2I 출력의 인간 판단과 얼마나 잘 일치하는가?
- RQ5객체 동시출현, 프롬프트 구조와 같은 어떤 요인이 공간 렌더링 성능에 영향을 미치는가?
주요 결과
- 모든 모델은 강한 사진 현실감을 보이지만 다중 객체 관계에 대한 공간 이해는 약하다.
- 최고 모델(DALLE-v2)은 VISOR uncond 약 60%, VISOR 4 약 7.5%를 달성하여 엄격한 공간 정확도에 큰 차이가 있음을 시사한다.
- 두 객체 모두가 나타나야 할 때 OA(object presence)는 대부분의 모델에서 여전히 낮아 객체 생성과 관계 정확도 간의 차이를 강조한다.
- 모델은 첫 번째로 언급된 객체를 선호하는 편향, 일반적으로 동시 발생하는 쌍에서의 높은 성공률, 객체 합성 등 편향을 보인다.
- VISOR는 인간 판단과 상관관계가 있어 T2I 모델의 공간 추론 평가에 유용함을 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.