[論文レビュー] HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware Attention
HiCLIPはCLIPの画像とテキスト両方のブランチに階層認識型注意機構を追加し、階層構造の無監督発見を可能にし、視覚と視覚言語タスクのクロスモーダル整合性を向上させる。
The success of large-scale contrastive vision-language pretraining (CLIP) has benefited both visual recognition and multimodal content understanding. The concise design brings CLIP the advantage in inference efficiency against other vision-language models with heavier cross-attention fusion layers, making it a popular choice for a wide spectrum of downstream tasks. However, CLIP does not explicitly capture the hierarchical nature of high-level and fine-grained semantics conveyed in images and texts, which is arguably critical to vision-language understanding and reasoning. To this end, we equip both the visual and language branches in CLIP with hierarchy-aware attentions, namely Hierarchy-aware CLIP (HiCLIP), to progressively discover semantic hierarchies layer-by-layer from both images and texts in an unsupervised manner. As a result, such hierarchical aggregation significantly improves the cross-modal alignment. To demonstrate the advantages of HiCLIP, we conduct qualitative analysis on its unsupervised hierarchy induction during inference, as well as extensive quantitative experiments on both visual recognition and vision-language downstream tasks.
研究の動機と目的
- 視覚と言語の両方において階層的(ローカルからグローバルへの)意味論を明示的にモデル化する動機づけを行い、マルチモーダル理解の向上を図る。
- 層を跨いで近隣のパッチ/トークンを順次統合する、階層認識型アテンションマスクを開発する。
- 視覚認識、画像-テキスト検索、視覚言語推論への影響を評価し、CLIP系ベースラインと比較する。
提案手法
- Cマスクを導入して、空間的または意味的に類似したパッチやトークンの統合に注意を偏らせる、階層認識型アテンションを定義する。
- 言語では、隣接トークン間の近接親和スコアを計算し、層を跨いで分解不能で増加する親和を強制し、トークン経路に沿った親和の積からCを導出する。
- 視覚では、4連結パッチ間の近接親和を計算し、2D格子グラフに拡張して、2つの1ターン経路でスコアを伝播させてCを形成し、Group Transformerを生み出す。
- CLIP風の対照学習損失を用いて、画像にはGroup Transformer、テキストにはTree Transformerを組み合わせたHiCLIPを画像-テキスト対で事前学習する;自己教師付き目的(HiDeCLIP)と組み合わせるオプションあり。
- 推論時には、層をまたいだ近接親和スコアを抽出して階層的木構造/グループを形成する無監督の階層 induction を行う。
実験結果
リサーチクエスチョン
- RQ1階層認識型アテンションは、ゼロショットの視覚認識および下流の視覚と言語タスクのためのCLIPのクロスモーダル整合を改善できるか?
- RQ2HiCLIP 下で画像とテキストにおける階層構造はどのように現れ、無監督の階層 induction に利用できるか?
- RQ3データ量とモデル容量が視覚専用タスクと視覚言語タスクの両方で、CLIPや関連ベースラインと比較してどのようにHiCLIPのスケーリングに影響するか?
主な発見
- HiCLIPはゼロショットの視覚認識でCLIP系ベースラインを大きく上回る;データ15Mで、11データセットの平均精度は31.8(CLIP)から41.8(HiCLIP)へ向上。
- データ30Mでは、視覚専用ベンチマークの平均53.4、CLIP 48.4、HiDeCLIPは57.4、より大規模な事前学習によるスケーラブルな利点を示す。
- MSCOCOのゼロショット画像-テキスト検索はデータ規模を超えてHiCLIP/HiDeCLIPが大幅に改善。HiCLIP (15M) は Rsum 285.1 vs CLIP 211.5、HiCLIP (30M) は Rsum 333.5 vs CLIP 300.8。
- Vision-language reasoning tasks (VQA, SNLI-VE) もHiCLIPの恩恵を受け、CLIPおよび DeCLIP ベースラインより精度と検索指標が向上。
- 無監督の階層 induction が実証される:視覚的および文本の階層が層を跨いで現れ、解釈可能な階層表現を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。