[論文レビュー] Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark
論文は Wukong を公開し、100M の中国語画像テキストデータセットと伴う VLP モデルとベンチマークを提供し、ゼロショット分類と画像テキスト検索における中国語の跨モーダル事前学習と評価を進展させる。
Vision-Language Pre-training (VLP) models have shown remarkable performance on various downstream tasks. Their success heavily relies on the scale of pre-trained cross-modal datasets. However, the lack of large-scale datasets and benchmarks in Chinese hinders the development of Chinese VLP models and broader multilingual applications. In this work, we release a large-scale Chinese cross-modal dataset named Wukong, which contains 100 million Chinese image-text pairs collected from the web. Wukong aims to benchmark different multi-modal pre-training methods to facilitate the VLP research and community development. Furthermore, we release a group of models pre-trained with various image encoders (ViT-B/ViT-L/SwinT) and also apply advanced pre-training techniques into VLP such as locked-image text tuning, token-wise similarity in contrastive learning, and reduced-token interaction. Extensive experiments and a benchmarking of different downstream tasks including a new largest human-verified image-text test dataset are also provided. Experiments show that Wukong can serve as a promising Chinese pre-training dataset and benchmark for different cross-modal learning methods. For the zero-shot image classification task on 10 datasets, $Wukong_{ViT-L}$ achieves an average accuracy of 73.03%. For the image-text retrieval task, it achieves a mean recall of 71.6% on AIC-ICC which is 12.9% higher than WenLan 2.0. Also, our Wukong models are benchmarked on downstream tasks with other variants on multiple datasets, e.g., Flickr8K-CN, Flickr-30K-CN, COCO-CN, et al. More information can be referred to: https://wukong-dataset.github.io/wukong-dataset/.
研究の動機と目的
- 公共の 100M 中国語画像テキストデータセット(Wukong)をウェブから収集して大規模な中国語ビジョン‑言語の事前学習を促進・支援する。
- Wukong‑Test を含むテストセットと複数の下流タスクを含む包括的なベンチマークスイートを確立する。
- 公平な比較のために多様な画像エンコーダと事前学習技術を備えた事前学習済み中国語 VLP モデルを提供する。
- 英語データで学習した画像エンコーダと中国語テキストエンコーダを整合させた場合のクロスリンガル一般化を調査する。
- Wukong データセットとモデルがゼロショット分類と画像テキスト検索タスクで有効であることを示す。
提案手法
- 高頻度の中国語語彙リスト(200K クエリ)とウェブフィルタリングを用いて 100M の中国語画像-テキスト対データセット(Wukong)を構築する。
- ViT および Swin Transformer の画像エンコーダとテキストエンコーダを用い、CLIP/FILIP/LiT に着想を得た目的関数でデュアルストリーム VLP モデルを訓練する。
- グローバル(CLIPスタイル)およびトークン単位(FILIPスタイル)のクロスモーダル類似性と、トークン数を削減した相互作用を含む(Wukong‑style)バリアントを適用する。
- 効率的なトークン単位の相互作用を可能にするトークン削減層を組み込む。
- 事前学習済みの英語画像エンコーダを中国語テキストエンコーダと合わせるため、ロックド・イメージ・テキスト・チューニング(LiT‑style)を使用する。
- Chinese を WordPiece(文字-aware)でトークン化し、テキストをフィルタリングとプライバシー保護代替で前処理する。
- ゼロショット画像分類を 10 データセットで、複数の中国語ベンチマークで画像テキスト検索を評価する。
実験結果
リサーチクエスチョン
- RQ1大規模な中国語ビジョン‑言語データセットは、さまざまなタスクにおけるゼロショット分類と検索性能にどのような影響を与えるか?
- RQ2グローバル対トークン wise の異なる跨モーダル類似戦略とトークン削減は中国語 VLP の性能にどのような影響を与えるか?
- RQ3ロックされた英語事前学習済み画像エンコーダと中国語テキストエンコーダを組み合わせると、クロスモーダルの整合性は改善されるか?
- RQ4中国語 VLP モデルにおける文字レベルのトークン化と語彙レベルのトークン化はどのように比較されるか?
- RQ5Wukong‑Test ベンチマークの中国語画像-テキストの一貫性を評価する品質と有用性は?
主な発見
- Wukong ViT-L は 10 データセットを横断して平均ゼロショット Top-1 精度 73.03% を達成。
- Wukong ViT-L は image-text retrieval で AIC‑ICC の平均リコール 71.6% を達成し、WenLan 2.0 より 12.9% 高い。
- Wukong モデルは Flickr8K-CN、Flickr30K-CN、COCO-CN などの下流中国語データセットでも強力なゼロショットおよび検索性能を示す。
- トークン削減を伴うトークン-wise 類似度(Wukong‑style)は、エンコーダ間で効率的かつ競争力のあるクロスモーダル整合を提供する。
- 文字粒度のトークン化は語彙粒度のトークン化より優れているという発見。
- Wukong データセットは、大規模な中国語 VLP の事前学習資源およびベンチマークとしての有効性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。