QUICK REVIEW

[論文レビュー] Contrastive language and vision learning of general fashion concepts

Patrick John Chia, Giuseppe Attanasio|arXiv (Cornell University)|Apr 8, 2022

Handwritten Text Recognition Techniques被引用数 24

ひとこと要約

FashionCLIP は Farfetch からの 700k の画像–テキストペアで訓練されたドメイン適応型の CLIP モデルで、多 Modal 検索、ゼロショット分類、ファッション分野での grounding を可能にするオープンソースのリリースと詳細な評価を実現します。

ABSTRACT

The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from more transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model for the fashion industry. We showcase its capabilities for retrieval, classification and grounding, and release our model and code to the community.

研究の動機と目的

タスク固有の supervised モデルを超えた、転用性のあるマルチモーダルなファッション表現の必要性を動機づける。
Farfetch カタログデータ上で FashionCLIP（CLIP に似たモデル）を提案・訓練し、一般的なファッション概念を学習させる。
さまざまなデータセットでの検索、ゼロショット分類、 grounding タスクにおける FashionCLIP の評価を行う。
ドメイン転送とゼロショット一般化に対する微調整と言語監督の影響を分析する。
訓練コードとチェックポイントを公開し、実務家のためのコスト、時間、排出量を考慮する。

提案手法

CLIP アーキテクチャをファッションデータに適用し、Farfetch 在庫からの 700k の画像–テキストペアで事前訓練を行う。
標準的な画像エンコーダとテキストエンコーダを使用して、画像とキャプションをコントラスト損失を用いて結合モ multimodal 空間へマッピングする。
ドメインデータでファインチューニングを行い、ゼロショット分類と検索を非ドメインの CLIP ベースラインと比較評価する。
透明性と ROI の観点から訓練時間、コスト、炭素排出を報告する。
ファッション分野における grounding と組成性の研究のため、定性的分析とローカライズマップを提供する。

実験結果

リサーチクエスチョン

RQ1FashionCLIP は一般的な CLIP と比較して、ファッションアイテムのマルチモーダル検索でどのように性能を発揮するのか？
RQ2ドメイン特化のファインチューニングは、未知またはドメイン外のファッションデータに対するゼロショット分類と検索を改善できるのか？
RQ3FashionCLIP は grounding と組成性を示し、 novel なファッション概念のゼロショット認識を可能にするのか？

主な発見

Model	Dataset	HITS@5
F-CLIP	TEST	0.61
CLIP	TEST	0.22
F-CLIP	HOUT-C	0.57
CLIP	HOUT-C	0.28
F-CLIP	HOUT-B	0.55
CLIP	HOUT-B	0.27

FashionCLIP は、テスト済みデータセット全体でマルチモーダル検索において CLIP を上回る（例: TEST: 0.61 対 0.22; HOUT-C: 0.57 対 0.28; HOUT-B: 0.55 対 0.27）。
ゼロショット分類では、FashionCLIP がすべてのテストデータセットで CLIP より高い F1 スコアを達成（例: TEST: 0.39 対 0.31; KAGL: 0.67 対 0.63; F-MNIST: 0.71 対 0.66; DEEP: 0.47 対 0.45）。
線形プローブ（LINEAR）は、いくつかのデータセットでゼロショット性能との差を部分的に詰め、監視と一般化のニュアンス的なトレードオフを浮き彫りにする。
定性的分析は、FashionCLIP がファッション以外の概念を検索でき、ドメイン非依存の CLIP が見逃すスタイライズド/遮蔽された入力にも対応できることを示している。
ローカリゼーションマップは、単一の概念が異なる視覚的領域に対応することを示し、初期的な組成的一般化を可能にする（例：'Nike dress' のような語句を想像する）。
実験は、NP に似た新規プロンプト（例: 'Nike dress', 'keyboard pochette'）に対するゼロショット意味論を持つ組成能力を示唆するが、規模は限定的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。