QUICK REVIEW

[논문 리뷰] UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning

Wei Li, Can Gao|arXiv (Cornell University)|2020. 12. 31.

Multimodal Machine Learning Applications참고 문헌 40인용 수 32

한 줄 요약

UNIMO는 텍스트, 이미지, 이미지-텍스트 쌍에서 학습하는 통합-모달 사전 학습 패러다임으로, 교차 모달 대비 학습과 다단계 텍스트 재작성으로 단일 모달 및 다중 모달 작업에서 강력한 성능을 달성합니다.

ABSTRACT

Existed pre-training methods either focus on single-modal tasks or multi-modal tasks, and cannot effectively adapt to each other. They can only utilize single-modal data (i.e. text or image) or limited multi-modal data (i.e. image-text pairs). In this work, we propose a unified-modal pre-training architecture, namely UNIMO, which can effectively adapt to both single-modal and multi-modal understanding and generation tasks. Large scale of free text corpus and image collections can be utilized to improve the capability of visual and textual understanding, and cross-modal contrastive learning (CMCL) is leveraged to align the textual and visual information into a unified semantic space over a corpus of image-text pairs. As the non-paired single-modal data is very rich, our model can utilize much larger scale of data to learn more generalizable representations. Moreover, the textual knowledge and visual knowledge can enhance each other in the unified semantic space. The experimental results show that UNIMO significantly improves the performance of several single-modal and multi-modal downstream tasks. Our code and pre-trained models are public at the UNIMO project page https://unimo-ptm.github.io/

연구 동기 및 목표

대규모 비쌍 텍스트 및 이미지 데이터를 활용할 수 있는 통합-모달 사전 학습 방법의 필요성을 제시한다.
시각적 및 텍스트 모달리티를 공통 의미 공간에 정렬하는 표현을 학습한다.
단일 모달 언어 작업과 다중 모달 비전-언어 작업 모두에서 강력한 성능을 구현한다.
교차 모달 학습에서 텍스트와 시각 지식이 서로 상호 강화된다는 것을 보여준다.

제안 방법

텍스트, 이미지 영역, 이미지-텍스트 쌍을 처리하기 위한 통합-모달 트랜스포머를 사용한다.
텍스트 재작성으로 CMCL(교차 모달 대비 학습)을 적용하여 이미지-텍스트 쌍에 대해 다양한 양의 예시와 어려운 음성 음수를 생성한다.
단일 모달 데이터에서 검색된 관련 텍스트와 이미지를 각 이미지-텍스트 쌍에 보강한다.
마스킹된 시각 특징 재구성과 특징 회귀 및 영역 분류 목적어의 조합으로 사전 학습한다.
양방향 예측과 Seq2Seq 생성으로 언어 모델링을 위한 통합 인코더-디코더를 학습하고 모달 간 컨텍스트를 공유한다.

실험 결과

연구 질문

RQ1단일 모달과 다중 모달 작업을 모두 지원하기 위해 텍스트, 이미지, 이미지-텍스트 쌍에서 효과적으로 학습하는 단일 모델이 가능할까?
RQ2다단계 텍스트 재작성과 함께의 교차 모달 대비 학습이 통합 의미 공간에서의 정렬을 개선하는가?
RQ3공동 학습 시 텍스트 지식과 시각 지식이 서로 얼마나 강화될 수 있는가?
RQ4이전의 단일 모달 PLM 및 다중 모달 사전 학습 방법과 비교하여 UNIMO는 다운스트림 작업에서 얼마나 우수한가?

주요 결과

UNIMO-base 및 UNIMO-large는 이미지-텍스트 검색, 시각적 함의, VQA, 이미지 캡션 생성과 같은 다중 모달 작업에서 최첨단 결과를 달성하며, UNIMO-large는 이미지 및 텍스트 검색에서 이전 최고치 ERNIE-ViL-large를 약 1.3–1.34 R@1만큼 상회했다.
UNIMO는 또한 단일 모달 언어 작업에서도 강력한 성능을 발휘하여 여러 PLM을 능가하고 많은 벤치마크에서 UniLM을 넘어섰다.
절단 연구에서 텍스트 데이터 제거(w/o texts)를 하면 다중 모달 작업이 저하되고, 시각 데이터 제거(w/o pairs&images)를 하면 단일 모달 작업이 저하되어 모달 간 상호 개선이 입증된다.
이미지-텍스트 쌍만으로 학습하는 모델보다 비쌍 텍스트와 이미지 데이터를 함께 사용하는 것이 표현력을 풍부하게 하고 교차 모달 정렬을 향상시킨다.
텍스트 재작성(문장, 구문, 단어 수준)과 검색 보강이 CMCL을 통해 naïve 이미지-텍스트 매칭 방식보다 교차 모달 의미 정렬을 크게 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.