Skip to main content
QUICK REVIEW

[論文レビュー] Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese

Yang An, Junshu Pan|arXiv (Cornell University)|Nov 2, 2022
Multimodal Machine Learning Applications被引用数 52
ひとこと要約

Chinese CLIP は、中国データへ適応する二段階前訓練法を導入し、MUGE、Flickr30K-CN、COCO-CN で最先端のクロスモーダル検索を達成し、ゼロショットの画像分類性能も競争力を持つ。

ABSTRACT

The tremendous success of CLIP (Radford et al., 2021) has promoted the research and application of contrastive learning for vision-language pretraining. In this work, we construct a large-scale dataset of image-text pairs in Chinese, where most data are retrieved from publicly available datasets, and we pretrain Chinese CLIP models on the new dataset. We develop 5 Chinese CLIP models of multiple sizes, spanning from 77 to 958 million parameters. Furthermore, we propose a two-stage pretraining method, where the model is first trained with the image encoder frozen and then trained with all parameters being optimized, to achieve enhanced model performance. Our comprehensive experiments demonstrate that Chinese CLIP can achieve the state-of-the-art performance on MUGE, Flickr30K-CN, and COCO-CN in the setups of zero-shot learning and finetuning, and it is able to achieve competitive performance in zero-shot image classification based on the evaluation on the ELEVATER benchmark (Li et al., 2022). We have released our codes, models, and demos in https://github.com/OFA-Sys/Chinese-CLIP

研究の動機と目的

  • 中国語データの言語ネイティブな vision-language の事前学習を動機づけ、クロスモーダル検索とオープンドメイン分類を改善する。
  • 中国語の多モーダルデータのために、既存の基盤モデルを活用したデータ効率の良い二段階前訓練戦略を開発する。
  • 中国語のクロスモーダル検索ベンチマークで最先端の性能を示し、ゼロショット分類で競争力を示す。
  • デプロイメント対応モデルとランタイム最適化フォーマット(TensorRT/ONNX)を提供する。

提案手法

  • ビジョンエンコーダを OpenAI CLIP から、テキストエンコーダを Chinese RoBERTa (wwm-ext) から初期化する。
  • Stage 1: Locked-Image Tuning (LiT) は、画像エンコーダを固定したまま、視覚-言語整合のためにテキストエンコーダのみを訓練する。
  • Stage 2: 2つのエンコーダの凍結を解除し、中国語のマルチモーダルデータ上で対照学習チューニングを行う。
  • 事前学習データは公開の中国語画像-テキストペア(約200M)と英語データセットの翻訳および内部ペアを組み合わせて組み立てられた; データ前処理には CLIP-score ベースのフィルタリングとブラックリストベースの剪定を含む。
  • MUGE-Retrieval、Flickr30K-CN、COCO-CN におけるゼロショットおよびファインチューニング設定で評価; 追加で ELEVATER ICinW ベンチマークでのゼロショット画像分類を評価。

実験結果

リサーチクエスチョン

  • RQ1CLIP を中国語データへ転送する際、言語ネイティブな二段階前訓練戦略はクロスモーダル検索を改善できるか?
  • RQ2Stage 1 で画像エンコーダをロックし、Stage 2 で両エンコーダを共同訓練する方が、スクラッチからの訓練や直接ファインチューニングより中国語のマルチモーダルデータへの適応性が高いか?
  • RQ3Chinese CLIP は、翻訳済み CLIP ベースラインや他の中国語マルチモーダルモデルと比較して、ネイティブ中国語検索ベンチマークでどう性能を示すか?
  • RQ4中国語 CLIP ファミリーにおけるゼロショット検索とファインチューニングのためのモデルサイズと性能のトレードオフは?

主な発見

  • Chinese CLIP モデルは、多様なモデルサイズで、MUGE、Flickr30K-CN、COCO-CN のゼロショット検索およびファインチューニングで最先端の結果を達成。
  • LiT を用いた二段階前訓練と対照学習のチューニングは、評価データセット全体で、スクラッチ訓練または直接ファインチューニングを一貫して上回る。
  • Large および Huge な Chinese CLIP バリアントは、優れたゼロショット検索指標と、ELEVATER ICinW ベンチマークで競争力のあるゼロショット分類を達成。
  • より大きな画像解像度(例: 336px)を持つ CN-CLIP バリアントは、より小さな構成より検索性能を向上させる。
  • ICinW ベンチマークでのゼロショット分類は、英語事前学習済みおよび中国語ベースラインと比較して競争力のある性能を示し、いくつかのデータセットで顕著な向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。