QUICK REVIEW

[논문 리뷰] What You See is What You Read? Improving Text-Image Alignment Evaluation

Michal Yarom, Yonatan Bitton|arXiv (Cornell University)|2023. 05. 17.

Multimodal Machine Learning Applications인용 수 14

한 줄 요약

SeeTRUE라는 포괄적인 텍스트-이미지 정렬 벤치마크를 소개하고, 두 가지 정렬 평가 방법(VQ2와 VNLI)이 베이스라인을 능가하며 실제 데이터와 합성 데이터에 일반화되어 텍스트-이미지 시스템에 대한 더 나은 평가 및 재랭킹을 가능하게 합니다.

ABSTRACT

Automatically determining whether a text and a corresponding image are semantically aligned is a significant challenge for vision-language models, with applications in generative text-to-image and image-to-text tasks. In this work, we study methods for automatic text-image alignment evaluation. We first introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets from both text-to-image and image-to-text generation tasks, with human judgements for whether a given text-image pair is semantically aligned. We then describe two automatic methods to determine alignment: the first involving a pipeline based on question generation and visual question answering models, and the second employing an end-to-end classification approach by finetuning multimodal pretrained models. Both methods surpass prior approaches in various text-image alignment tasks, with significant improvements in challenging cases that involve complex composition or unnatural images. Finally, we demonstrate how our approaches can localize specific misalignments between an image and a given text, and how they can be used to automatically re-rank candidates in text-to-image generation.

연구 동기 및 목표

텍스트-이미지 정렬에 대한 포괄적이고 교차 태스크 평가 프레임워크를 촉진하여 텍스트-이미지 생성 태스크와 이미지-텍스트 생성 태스크를 모두 다룹니다.
실제 및 합성 이미지-텍스트 쌍으로 구성된 대규모의 인간 주석 벤치마크 SeeTRUE를 만들어 의미적 정렬을 평가합니다.
두 가지 자동 평가 접근법(VQ2와 VNLI)을 개발하고, 참조 데이터 없이 또는 엔드 투 엔드로 동작하도록 하여 강력한 베이스라인과 비교합니다.
정렬 불일치를 국소화하고 정렬 점수를 사용하여 생성된 이미지 후보를 재랭킹하는 능력을 보여줍니다.
향후 연구와 재현성을 가능하게 하는 데이터, 모델, 코드 등의 자원을 제공합니다.

제안 방법

실제/합성 데이터와 텍스트-이미지/이미지-텍스트 태스크를 아우르는 31,855개의 라벨링된 이미지-텍스트 쌍을 선별하고 정렬에 대한 인간 판단을 포함하여 SeeTRUE를 구성합니다.
ConGen을 통해 대규모 언어 모델을 이용해 변형 캡션을 생성하고 NLI 및 인간 검증으로 이를 검증합니다.
VQ2 제안: 텍스트로부터 질의-답변 쌍을 생성하고 QA로 검증하며 VQA 모델을 사용해 이미지-텍스트 정렬 점수를 산출하는 제로샷 정렬; 쌍 간 점수를 모아 합산합니다.
VNLI 제안: 다중모달 모델(PaLI-17B, BLIP2)을 엔드 투 엔드로 미세조정해 이미지-텍스트 쌍을 예/아니오 프롬프트 형식으로 구성해 이진 정렬을 예측합니다.
SeeTRUE 데이터셋에서 ROC AUC로 baselines(CLIP, CoCa, BLIP, BLIP2, OFA, TIFA) 대비 정렬 방법을 평가합니다.
VQ2가 구성적 데이터셋에서 우수하며, 미세조정된 PaLI와 결합하면 강력하고 보완적인 신호를 제공합니다.

실험 결과

연구 질문

RQ1실제 데이터와 합성 데이터 전반에서 이미지와 텍스트 간의 의미적 정렬을 얼마나 견고하게 평가할 수 있을까?
RQ2질의-생성 및 시각적 질의 응답 파이프라인(VQ2)이 고정 임베딩 기반 베이스라인을 능가할 수 있는가?
RQ3다중모달 모델의 엔드 투 엔드 미세조정(VNLI)이 제로샷 방식보다 정렬 판단을 향상시키는가?
RQ4SeeTRUE의 벤치마크가 정렬 불일치의 원인을 밝히고 점수 정렬에 따른 생성 이미지의 재랭킹을 개선하는가?
RQ5합성 데이터와 대조/모순 생성이 데이터셋 간 정렬 평가에 도움이 되거나 해를 끼치는가?

주요 결과

VQ2는 SeeTRUE 데이터셋 전반에서 제로샷 성능 최상위에 도달하며, 여러 베이스라인을 능가하고 Winoground에서 최상위 결과를 얻습니다.
미세조정된 PaLI(합성 데이터 포함)는 평균 ROC AUC가 높고 여러 데이터셋에서 가장 강한 성능을 보여줍니다. 합성 데이터는 합성 이미지 태스크에 이익이 있지만 모든 자연 이미지 데이터셋에 통용되지는 않습니다.
엔드-투-엔드 VNLI 모델(PaLI, BLIP2 변형)은 강력한 결과를 보이며 VQ2와 결합될 때 보완적 신호를 제공합니다.
VQ2는 특정 질의-답변 쌍을 통해 해석 가능한 정렬 불일치를 제공하고 CLIP 베이스라인에 비해 생성 이미지의 재랭킹을 향상시킵니다.
Winoground에서 VQ2의 그룹 점수가 30.50%에 도달하여 인간 수준의 지도에 근접하고 조합적 추론 태스크에서 많은 베이스라인을 능가합니다.
SeeTRUE의 Contradiction-Generation(ConGen) 접근법은 인간 라벨과 높은 일치를 달성하며(예: COCO에서 94%, PickaPic에서 77%), 데이터 유형 전반에 걸친 견고한 평가를 지원합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.