Skip to main content
QUICK REVIEW

[논문 리뷰] Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark

Jiaxi Gu, Xiaojun Meng|arXiv (Cornell University)|2022. 02. 14.
Multimodal Machine Learning Applications인용 수 29
한 줄 요약

본 논문은 100M 중국어 이미지-텍스트 데이터셋 Wukong과 동반되는 VLP 모델 및 벤치마크를 공개하여 제로샷 분류와 이미지-텍스트 검색에서 중국어 크로스모달 사전학습 및 평가를 진전시킨다.

ABSTRACT

Vision-Language Pre-training (VLP) models have shown remarkable performance on various downstream tasks. Their success heavily relies on the scale of pre-trained cross-modal datasets. However, the lack of large-scale datasets and benchmarks in Chinese hinders the development of Chinese VLP models and broader multilingual applications. In this work, we release a large-scale Chinese cross-modal dataset named Wukong, which contains 100 million Chinese image-text pairs collected from the web. Wukong aims to benchmark different multi-modal pre-training methods to facilitate the VLP research and community development. Furthermore, we release a group of models pre-trained with various image encoders (ViT-B/ViT-L/SwinT) and also apply advanced pre-training techniques into VLP such as locked-image text tuning, token-wise similarity in contrastive learning, and reduced-token interaction. Extensive experiments and a benchmarking of different downstream tasks including a new largest human-verified image-text test dataset are also provided. Experiments show that Wukong can serve as a promising Chinese pre-training dataset and benchmark for different cross-modal learning methods. For the zero-shot image classification task on 10 datasets, $Wukong_{ViT-L}$ achieves an average accuracy of 73.03%. For the image-text retrieval task, it achieves a mean recall of 71.6% on AIC-ICC which is 12.9% higher than WenLan 2.0. Also, our Wukong models are benchmarked on downstream tasks with other variants on multiple datasets, e.g., Flickr8K-CN, Flickr-30K-CN, COCO-CN, et al. More information can be referred to: https://wukong-dataset.github.io/wukong-dataset/.

연구 동기 및 목표

  • 공개된 100M 중국어 이미지-텍스트 데이터셋(Wukong)을 웹에서 수집하여 대규모 중국어 비전-언어 사전학습을 가능하게 하는 것을 목표로 한다.
  • Wukong-Test를 포함한 테스트 세트와 중국어 VLP 모델용 다수의 하류 태스크를 포함하는 포괄적 벤치마크를 구축한다.
  • 공정한 비교를 위한 다양한 이미지 인코더와 사전학습 기법을 갖춘 사전학습 중국어 VLP 모델을 제공한다.
  • 영어 데이터로 학습된 이미지 인코더와 중국어 텍스트 인코더를 정렬함으로써 다국어 간 일반화 문제를 조사한다.
  • Wukong 데이터셋과 모델이 제로샷 분류 및 이미지-텍스트 검색 태스크에서 얼마나 효과적인지 보여준다.

제안 방법

  • 고빈도 중국어 단어 목록(200K 쿼리)과 웹 필터링을 활용해 100M 중국어 이미지-텍스트 쌍 데이터셋(Wukong)을 구성한다.
  • 이미지 인코더(ViT 및 Swin Transformer)와 텍스트 인코더를 CLIP/FILIP/LiT 영감을 받은 목표로 학습하는 듀얼 스트림 VLP 모델을 학습시킨다.
  • 전역(CLIP 스타일) 및 토큰 수준(FILIP 스타일)의 크로모달 유사도와 축소 토큰 상호작용 변형(Wukong 스타일)을 적용한다.
  • 효율적인 토큰 수준 상호작용을 가능하게 하는 토큰 축소 계층을 Incorporate한다.
  • 사전 학습된 영어 이미지 인코더를 중국어 텍스트 인코더와 정렬하기 위한 잠금 이미지-텍스트 튜닝(LiT 스타일)을 적용한다.
  • 중국어를 WordPiece로 토큰화하고(문자 의식) 텍스트를 필터링 및 프라이버시 보호 대체로 전처리한다.
  • 제로샷 이미지 분류를 10개 데이터셋에서 평가하고, 다수의 중국어 벤치마크에서 이미지-텍스트 검색을 평가한다.

실험 결과

연구 질문

  • RQ1대규모 중국어 비전-언어 데이터셋이 다양한 태스크에서 제로샷 분류 및 검색 성능에 어떤 영향을 미치는가?
  • RQ2글로벌 대 토큰 단위의 상호작용 등 서로 다른 크로모달 유사도 전략과 토큰 축소가 중국어 VLP 성능에 어떤 영향을 미치는가?
  • RQ3영어로 사전학습된 이미지 인코더를 중국어 텍스트 인코더와 결합해 크로모달 정렬이 개선되는가?
  • RQ4중국어 VLP 모델에서 문자 수준 토크나이제이션과 어절 수준 토크나이제이션 중 어떤 것이 더 우수한가?
  • RQ5Wukong-Test 벤치마크의 중국어 이미지-텍스트 일관성 평가 품질과 활용성은 어떠한가?

주요 결과

  • Wukong ViT-L은 10개 데이터셋에서 평균 제로샷 상위-1 정확도 73.03%를 달성했다.
  • Wukong ViT-L은 이미지-텍스트 검색에서 AIC-ICC의 평균 재현률 71.6%를 달성했고 WenLan 2.0보다 12.9%p 높다.
  • Wukong 모델은 Flickr8K-CN, Flickr30K-CN, COCO-CN 등 하류 중국어 데이터셋에서 강한 제로샷 및 검색 성능을 보인다.
  • 토큰 축소를 통한 토큰 수준 유사도(Wukong 스타일)가 인코더 간 크로모달 정렬을 효율적이면서도 경쟁력 있게 제공한다.
  • 문자 기반 토큰화가 단어 기반 토큰화보다 연구에서 우수한 성능을 보인다.
  • Wukong 데이터셋은 대규모 중국어 VLP 사전학습 자원과 벤치마크로서의 효과를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.