QUICK REVIEW

[논문 리뷰] ChatPainter: Improving Text to Image Generation using Dialogue

Shikhar Sharma, Dendi Suhubdy|arXiv (Cornell University)|2018. 02. 22.

Multimodal Machine Learning Applications참고 문헌 31인용 수 78

한 줄 요약

ChatPainter는 대화 맥락을 자막-조건 이미지 생성에 추가하여 MS COCO에서 캡션만 모델보다 더 높은 inception 점수와 더 좋은 이미지 품질을 달성합니다.

ABSTRACT

Synthesizing realistic images from text descriptions on a dataset like Microsoft Common Objects in Context (MS COCO), where each image can contain several objects, is a challenging task. Prior work has used text captions to generate images. However, captions might not be informative enough to capture the entire image and insufficient for the model to be able to understand which objects in the images correspond to which words in the captions. We show that adding a dialogue that further describes the scene leads to significant improvement in the inception score and in the quality of generated images on the MS COCO dataset.

연구 동기 및 목표

대화를 포함한 자막으로 복잡한 장면을 더 잘 설명하도록 텍스트-이미지 생성을 개선하려는 동기 부여.
자극 조건 부여 대화가 캡션만 기반의 기준보다 MS COCO에서 더 높은 품질의 이미지를 생성함을 입증합니다.
conditioning augmentation 메커니즘을 통해 대화를 통합하고 두 단계의 설정으로 StackGAN을 확장합니다.

제안 방법

StackGAN을 두 단계 생성기와 판별기로 확장합니다.
사전 학습된 자막 인코더로 자막을 인코딩하고 대화는 비순환 Skip-Thought 또는 순환 양방향 LSTM 인코더 중 하나를 사용하여 인코딩합니다.
자막 임베딩과 대화 임베딩을 연결하고 Conditioning Augmentation (CA) 모듈을 통해 mu와 sigma를 이용해 조건 변수 ĉ를 샘플링합니다.
Stage-I는 z와 ĉ0를 사용해 64x64 이미지를 생성; Stage-II는 Stage-I 출력과 결합된 ĉ를 사용해 256x256으로 정제합니다.
실제 이미지-자막-대화 3중과 가짜 쌍을 활용하는 매칭 인식형(discriminator)으로 학습하고, 적대적 손실과 함께 조건 변수에 대한 KL 정규화를 최적화합니다.
대화 인코더의 비순환형과 순환형 모두를 실험해 이미지 품질에 미치는 영향을 평가합니다.

실험 결과

연구 질문

RQ1자막과 함께 대화 설명을 포함하는 것이 MS COCO에서 생성된 이미지의 품질을 향상시키나요?
RQ2대화의 포함이 캡션-전용 모델과 비교하여 inception 점수와 같은 표준 이미지 합성 지표에 어떤 영향을 미치나요?
RQ3비순환 대화 인코더와 순환 대화 인코더를 사용하는 것이 생성 성능에 어떤 영향을 미치나요?
RQ4ChatPainter 프레임워크를 기존 자막-이미지 모델과 통합하여 엔드-투-엔드 개선을 달성할 수 있나요?

주요 결과

ChatPainter는 대화를 포함한 경우 캡션-전용 StackGAN 기준보다 더 높은 inception 점수를 달성합니다.
비순환 ChatPainter: 9.43±0.04; 순환 ChatPainter: 9.74±0.02가 MS COCO 테스트 세트에서(Inception Score).
이전 방법과 비교하면: Reed et al. (2016a) 7.88±0.07 및 StackGAN 8.45±0.03, ChatPainter는 상당한 개선을 보이며, AttnGAN 및 AttnGAN (Xu et al., 2017)은 각각 더 높은 점수(11.46±0.09 및 25.89±0.47)를 문헌의 맥락에서 달성합니다.
대화 조건화된 ChatPainter는 자막-이미지 모델에 직교적 향상으로 추가될 수 있습니다.
순환 대화 인코더는 일반적으로 더 나은 대화 표현으로 인해 비순환 인코더보다 더 높은 inception 점수를 산출합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.