QUICK REVIEW

[논문 리뷰] Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark

Jiaxi Gu, Xiaojun Meng|arXiv (Cornell University)|2022. 02. 14.

Multimodal Machine Learning Applications인용 수 29

한 줄 요약

본 논문은 100M 중국어 이미지-텍스트 데이터셋 Wukong과 동반되는 VLP 모델 및 벤치마크를 공개하여 제로샷 분류와 이미지-텍스트 검색에서 중국어 크로스모달 사전학습 및 평가를 진전시킨다.

ABSTRACT

Vision-Language Pre-training (VLP) models have shown remarkable performance on various downstream tasks. Their success heavily relies on the scale of pre-trained cross-modal datasets. However, the lack of large-scale datasets and benchmarks in Chinese hinders the development of Chinese VLP models and broader multilingual applications. In this work, we release a large-scale Chinese cross-modal dataset named Wukong, which contains 100 million Chinese image-text pairs collected from the web. Wukong aims to benchmark different multi-modal pre-training methods to facilitate the VLP research and community development. Furthermore, we release a group of models pre-trained with various image encoders (ViT-B/ViT-L/SwinT) and also apply advanced pre-training techniques into VLP such as locked-image text tuning, token-wise similarity in contrastive learning, and reduced-token interaction. Extensive experiments and a benchmarking of different downstream tasks including a new largest human-verified image-text test dataset are also provided. Experiments show that Wukong can serve as a promising Chinese pre-training dataset and benchmark for different cross-modal learning methods. For the zero-shot image classification task on 10 datasets, $Wukong_{ViT-L}$ achieves an average accuracy of 73.03%. For the image-text retrieval task, it achieves a mean recall of 71.6% on AIC-ICC which is 12.9% higher than WenLan 2.0. Also, our Wukong models are benchmarked on downstream tasks with other variants on multiple datasets, e.g., Flickr8K-CN, Flickr-30K-CN, COCO-CN, et al. More information can be referred to: https://wukong-dataset.github.io/wukong-dataset/.

연구 동기 및 목표

공개된 100M 중국어 이미지-텍스트 데이터셋(Wukong)을 웹에서 수집하여 대규모 중국어 비전-언어 사전학습을 가능하게 하는 것을 목표로 한다.
Wukong-Test를 포함한 테스트 세트와 중국어 VLP 모델용 다수의 하류 태스크를 포함하는 포괄적 벤치마크를 구축한다.
공정한 비교를 위한 다양한 이미지 인코더와 사전학습 기법을 갖춘 사전학습 중국어 VLP 모델을 제공한다.
영어 데이터로 학습된 이미지 인코더와 중국어 텍스트 인코더를 정렬함으로써 다국어 간 일반화 문제를 조사한다.
Wukong 데이터셋과 모델이 제로샷 분류 및 이미지-텍스트 검색 태스크에서 얼마나 효과적인지 보여준다.

제안 방법

고빈도 중국어 단어 목록(200K 쿼리)과 웹 필터링을 활용해 100M 중국어 이미지-텍스트 쌍 데이터셋(Wukong)을 구성한다.
이미지 인코더(ViT 및 Swin Transformer)와 텍스트 인코더를 CLIP/FILIP/LiT 영감을 받은 목표로 학습하는 듀얼 스트림 VLP 모델을 학습시킨다.
전역(CLIP 스타일) 및 토큰 수준(FILIP 스타일)의 크로모달 유사도와 축소 토큰 상호작용 변형(Wukong 스타일)을 적용한다.
효율적인 토큰 수준 상호작용을 가능하게 하는 토큰 축소 계층을 Incorporate한다.
사전 학습된 영어 이미지 인코더를 중국어 텍스트 인코더와 정렬하기 위한 잠금 이미지-텍스트 튜닝(LiT 스타일)을 적용한다.
중국어를 WordPiece로 토큰화하고(문자 의식) 텍스트를 필터링 및 프라이버시 보호 대체로 전처리한다.
제로샷 이미지 분류를 10개 데이터셋에서 평가하고, 다수의 중국어 벤치마크에서 이미지-텍스트 검색을 평가한다.

실험 결과

연구 질문

RQ1대규모 중국어 비전-언어 데이터셋이 다양한 태스크에서 제로샷 분류 및 검색 성능에 어떤 영향을 미치는가?
RQ2글로벌 대 토큰 단위의 상호작용 등 서로 다른 크로모달 유사도 전략과 토큰 축소가 중국어 VLP 성능에 어떤 영향을 미치는가?
RQ3영어로 사전학습된 이미지 인코더를 중국어 텍스트 인코더와 결합해 크로모달 정렬이 개선되는가?
RQ4중국어 VLP 모델에서 문자 수준 토크나이제이션과 어절 수준 토크나이제이션 중 어떤 것이 더 우수한가?
RQ5Wukong-Test 벤치마크의 중국어 이미지-텍스트 일관성 평가 품질과 활용성은 어떠한가?

주요 결과

Wukong ViT-L은 10개 데이터셋에서 평균 제로샷 상위-1 정확도 73.03%를 달성했다.
Wukong ViT-L은 이미지-텍스트 검색에서 AIC-ICC의 평균 재현률 71.6%를 달성했고 WenLan 2.0보다 12.9%p 높다.
Wukong 모델은 Flickr8K-CN, Flickr30K-CN, COCO-CN 등 하류 중국어 데이터셋에서 강한 제로샷 및 검색 성능을 보인다.
토큰 축소를 통한 토큰 수준 유사도(Wukong 스타일)가 인코더 간 크로모달 정렬을 효율적이면서도 경쟁력 있게 제공한다.
문자 기반 토큰화가 단어 기반 토큰화보다 연구에서 우수한 성능을 보인다.
Wukong 데이터셋은 대규모 중국어 VLP 사전학습 자원과 벤치마크로서의 효과를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.