QUICK REVIEW

[논문 리뷰] X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers

Jaemin Cho, Jiasen Lu|arXiv (Cornell University)|2020. 09. 23.

Multimodal Machine Learning Applications참고 문헌 62인용 수 24

한 줄 요약

이 논문은 X-LXMERT를 소개한다. X-LXMERT는 LXMERT를 확장하여 텍스트 캡션에서 고품질이고 의미 있는 이미지를 생성할 수 있도록 훈련 목표를 개선한 통합 다중모달 트랜스포머이다. 주요 개선 사항은 시각적 특징의 이산화, 다양한 비율에 걸쳐 균일한 마스킹 적용, 그리고 사전 훈련 데이터를 생성 작업에 맞추어 정렬하는 것이다. 이 모델은 전용 생성 모델과 비교해도 최고 수준의 이미지 생성 품질을 달성하면서도 시각적 질의 응답(VQA) 및 캡션 생성 성능을 유지한다.

ABSTRACT

Mirroring the success of masked language models, vision-and-language counterparts like ViLBERT, LXMERT and UNITER have achieved state of the art performance on a variety of multimodal discriminative tasks like visual question answering and visual grounding. Recent work has also successfully adapted such models towards the generative task of image captioning. This begs the question: Can these models go the other way and generate images from pieces of text? Our analysis of a popular representative from this model family - LXMERT - finds that it is unable to generate rich and semantically meaningful imagery with its current training setup. We introduce X-LXMERT, an extension to LXMERT with training refinements including: discretizing visual representations, using uniform masking with a large range of masking ratios and aligning the right pre-training datasets to the right objectives which enables it to paint. X-LXMERT's image generation capabilities rival state of the art generative models while its question answering and captioning abilities remains comparable to LXMERT. Finally, we demonstrate the generality of these training refinements by adding image generation capabilities into UNITER to produce X-UNITER.

연구 동기 및 목표

강력한 시각-언어 BERT 스타일 모델인 LXMERT가 텍스트 프롬프트에서 의미 있는 이미지를 생성할 수 있는지 조사한다.
기존 모델에서 이미지 생성 성능이 열악한 이유, 특히 회귀 기반 시각적 특징 예측 방식이 원인임을 규명한다.
분류 성능에 영향을 주지 않으면서도 강력한 이미지 생성 능력을 갖출 수 있도록 훈련 개선 전략을 개발한다.
이러한 개선 전략이 다른 다중모달 아키텍처, 예를 들어 UniFormer과도 일반화 가능한지 확인한다.
질의 응답, 캡션 생성, 텍스트에서 이미지 합성 기능을 모두 수행할 수 있는 통합 모델을 구축한다.

제안 방법

시각적 입력 표현을 단순화하기 위해 객체 검출 박스를 고정된 격자 특징으로 대체한다.
시각적 특징을 유한한 클러스터 집합으로 이산화하여, 회귀 대신 분류 기반 예측이 가능하도록 한다.
전체 이미지 생성에 대한 일반화 능력을 향상시키기 위해, 훈련 중에 10%에서 90%까지 다양한 마스킹 비율에 걸쳐 균일한 마스킹을 적용한다.
이미지 생성 목표에 맞게 사전 훈련 데이터를 재구성하여, 마스킹된 시각적 특징 예측을 주요 목표로 삼는다.
모델의 예측에서 시각적 특징을 자동으로 순차적으로 샘플링하는 디퓨전 기반 이미지 생성기를 통합한다.
초기 접두어를 조건으로 하여, 모델의 텍스트 스트림에서 다양한 일관성 있는 캡션을 생성하기 위해 지브스 샘플링을 사용한다.

실험 결과

연구 질문

RQ1LXMERT와 같은 시각-언어 BERT 모델이 텍스트 기반 기술서에서 의미 있는 이미지를 생성할 수 있는가?
RQ2기존 다중모달 모델은 분류 작업에서 뛰어난 성능을 내지만 이미지 생성에서는 실패하는 이유는 무엇인가?
RQ3다중모달 트랜스포머에서 신뢰할 수 있는 이미지 생성 기능을 구현하기 위해 필요한 훈련 개선 사항은 무엇인가?
RQ4이러한 개선 사항은 다양한 다중모달 아키텍처로 얼마나 일반화될 수 있는가?
RQ5확장된 모델의 성능은 이미지 품질과 의미 일관성 측면에서 전용 이미지 생성 모델과 비교해 어떻게 되는가?

주요 결과

원래 형태의 LXMERT는 회귀 기반 시각적 특징 예측 방식으로 인해 일관성 없거나 의미 없는 이미지를 생성하여 대부분 이해할 수 없는 출력을 내놓는다.
X-LXMERT는 이미지 생성에서 인ception 스코어(IS) 22.7과 FID 스코어 37.4를 기록하여 최고 수준의 생성 모델과 견줄 만한 성능을 달성한다.
시각적 표현의 이산화와 균일한 마스킹이 고품질 이미지 생성에 핵심적인 역할을 하며, 이를 생략할 경우 IS는 1.5로 하락하고 FID는 304.4로 급격히 증가함을 아블레이션 분석으로 입증되었다.
모델는 시각적 질의 응답(VQA) 성능을 유지하며, NLVR2에서 LXMERT 대비 약 2%의 정확도 하락만을 보이며 분류 작업 성능 저하가 최소한임을 시사한다.
동일한 훈련 개선 전략이 UniFormer에도 성공적으로 적용되어 X-Uniter를 생성하였으며, IS 20.1과 FID 51.4의 성능을 기록하여 광범위한 적용 가능성을 입증하였다.
자기회귀적 샘플링을 통한 중간 단계 이미지 생성 과정은 구조적인 추론을 보여주며, 먼저 주목할 만한 객체가 나타나고, 그 다음로 세부 사항과 배경이 순차적으로 생성됨을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.