[논문 리뷰] CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching
CoMat은 이미지-텍스트 개념 매칭 메커니즘을 사용하여 확산 모델을 미세조정하고, 누락된 개념을 안내하기 위해 캡션 모델을 활용하고 속성 집중 모듈을 도입하여, 이미지-텍스트 쌍이 필요 없이 최첨단 T2I 정합성을 달성합니다.
Diffusion models have demonstrated great success in the field of text-to-image generation. However, alleviating the misalignment between the text prompts and images is still challenging. The root reason behind the misalignment has not been extensively investigated. We observe that the misalignment is caused by inadequate token attention activation. We further attribute this phenomenon to the diffusion model's insufficient condition utilization, which is caused by its training paradigm. To address the issue, we propose CoMat, an end-to-end diffusion model fine-tuning strategy with an image-to-text concept matching mechanism. We leverage an image captioning model to measure image-to-text alignment and guide the diffusion model to revisit ignored tokens. A novel attribute concentration module is also proposed to address the attribute binding problem. Without any image or human preference data, we use only 20K text prompts to fine-tune SDXL to obtain CoMat-SDXL. Extensive experiments show that CoMat-SDXL significantly outperforms the baseline model SDXL in two text-to-image alignment benchmarks and achieves start-of-the-art performance.
연구 동기 및 목표
- 확산 기반 T2I 모델에서 텍스트 프롬프트와 생성된 이미지 간의 불일치를 동기 부여하고 진단한다.
- 토큰 주의 집중을 재조정하기 위해 이미지-텍스트 개념 매칭을 이용한 엔드투엔드 미세조정 프레임워크를 제안한다.
- 엔티티 속성 집중 모듈을 통해 속성 결합을 개선한다.
- 충실도 보존 메커니즘을 통해 정합성을 안내하면서 원래의 생성 능력을 보존한다.
제안 방법
- 확산 모델을 사용하여 텍스트 프롬프트에서 이미지를 생성하고, 프롬된 캡션 모델을 고정된 상태로 두어 프롬프트의 개념에 대해 p(C | image)를 평가한다.
- 잡힌 누락된 개념이 이미지에서 활성화되도록 확산 모델을 최적화하기 위해 노이즈 제거 과정에 역전파(backpropagate)한다(개념 매칭 손실).
- 프롬프트에서 엔티티(명사)와 수식어를 추출하고 Grounded-SAM을 사용해 영역 마스크를 얻은 뒤, 명사와 수식어를 이미지 영역과 정렬시키기 위해 토큰 수준 및 픽셀 수준의 주의 손실을 적용한다(속성 집중).
- 사전 학습된 확산 모델에서 초기화된 판별기를 사용하는 적대적 충실도 보존 손실을 추가하여 캡션 기반 보상에 과적합되는 것을 방지하고 생성 품질을 유지한다.
- 이미지나 인간 선호를 요구하지 않고, 공동 목표 L = L_cap + alpha L_token + beta L_pixel + lambda L_adv로 엔드투엔드 학습한다.
실험 결과
연구 질문
- RQ1이미지-텍스트 개념 매칭이 토큰 주의 집중을 개선하고 따라서 프롬프트와 생성된 이미지 사이의 불일치를 줄일 수 있는가?
- RQ2객체 영역에서 속성 집중을 강제하는 것이 속성 결합과 전반적인 프롬프트 충실도를 향상시키는가?
- RQ3보상 기반의 미세조정에서 충실도를 유지하여 생성 품질 저하를 방지하는 방법은 무엇인가?
- RQ4다양한 기본 확산 모델과 캡션 백본에서 이 접근법이 효과적인가?
주요 결과
- CoMat-SDXL은 SDXL 베이스라인에 비해 속성 결합 및 공간 관계에서 주목할 만한 향상을 보이며 T2I-CompBench에서 텍스트-이미지 정합성의 최첨단을 달성한다.
- CoMat-SD1.5는 SD1.5 베이스라인에 비해 상당한 개선을 보이며, 특히 공간 관계에서 큰 향상(일부 메트릭에서 70% 이상)을 포함한다.
- TIFA에서 CoMat-SDXL은 SDXL 대비 1.8 포인트 향상, CoMat-SD1.5는 SD1.5 대비 7.3 포인트 향상이다.
- 소거 실험은 개념 매칭이 주요 이점을 제공하고, 속성 집중을 더하면 다수의 하위 범주에서 추가 개선이 나타난다는 것을 보여준다.
- 사전 학습된 UNet를 충실도 보존의 판별기로 사용하는 것이 이미지 충실도와 정합성의 최적 균형을 제공하며 생성 품질을 저하시키지 않는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.