[논문 리뷰] Contrastive Language-Image Pre-Training with Knowledge Graphs
Knowledge-CLIP은 CLIP에 다중 모달 지식 그래프를 주입하고, 다중 모달 인코더 및 시각-언어를 의미 관계와 정렬하기 위한 새로운 손실 항을 추가하여 다운스트림 비전-언어 태스크를 향상시킨다.
Recent years have witnessed the fast development of large-scale pre-training frameworks that can extract multi-modal representations in a unified form and achieve promising performances when transferred to downstream tasks. Nevertheless, existing approaches mainly focus on pre-training with simple image-text pairs, while neglecting the semantic connections between concepts from different modalities. In this paper, we propose a knowledge-based pre-training framework, dubbed Knowledge-CLIP, which injects semantic information into the widely used CLIP model. Through introducing knowledge-based objectives in the pre-training process and utilizing different types of knowledge graphs as training data, our model can semantically align the representations in vision and language with higher quality, and enhance the reasoning ability across scenarios and modalities. Extensive experiments on various vision-language downstream tasks demonstrate the effectiveness of Knowledge-CLIP compared with the original CLIP and competitive baselines.
연구 동기 및 목표
- CLIP의 의미 이해 및 교차 모달 추론의 한계를 지적한다.
- 다중 모달, 장면, 언어 그래프를 통합한 지식 보강 사전 학습 프레임워크를 제안한다.
- CLIP 가중치로부터의 연속 학습을 통해 효율적인 학습을 가능하게 하면서 그래프 기반 지식을 주입한다.
제안 방법
- 두 개의 인코더(이미지와 텍스트)와 트립렛 기반 지식 그래프 데이터를 융합하는 다중 모달 트랜스포머를 사용한다.
- 지식을 다중 모달, 장면, 및 언어 KG 데이터셋에서 추출한 트립렛(h, r, t)으로 표현한다.
- 의미 관계와 그래프 구조를 모델링하기 위해 트립렛 기반(E2E, E2R) 손실과 그래프 기반(G2E) 손실을 도입한다.
- 원래의 CLIP 출력과의 정렬을 통해 망각을 완화하기 위해 지식 증류 손실을 유지한다.
- VisualSem, Visual Genome, ConceptNet, 그리고 이미지-텍스트 데이터셋 COCO Caption과 CC3M에서 사전 학습한다; CLIP 가중치에서 초기화한다.
실험 결과
연구 질문
- RQ1지식 그래프가 CLIP이 이미지-텍스트 쌍으로 달성하는 것을 넘어 교차 모달 의미 정렬을 개선할 수 있는가?
- RQ2트립렛 기반 목표와 그래프 기반 목표가 함께 비전-언어 이해에 더 기여하는가?
- RQ3CLIP 초기화를 통한 연속 학습이 지식을 주입하면서 망각을 방지하는가?
- RQ4Knowledge-CLIP이 CLIP 및 기준선과 비교했을 때 검색, VQA/SNLI-VE, ImageNet, 및 GLUE에서 어떤 성능을 보이는가?
주요 결과
| Method | Flickr30K Text R@1 | Flickr30K Text R@5 | Flickr30K Text R@10 | Flickr30K Image R@1 | Flickr30K Image R@5 | Flickr30K Image R@10 | MSCOCO Text R@1 | MSCOCO Text R@5 | MSCOCO Text R@10 | MSCOCO Image R@1 | MSCOCO Image R@5 | MSCOCO Image R@10 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| CLIP | 88.6 | 98.5 | 99.4 | 72.4 | 92.3 | 96.6 | 67.3 | 85.4 | 92.4 | 54.3 | 83.5 | 90.0 |
| Ours | 89.2 | 98.9 | 99.4 | 75.7 | 94.4 | 96.8 | 70.2 | 89.2 | 94.4 | 57.6 | 83.9 | 90.4 |
- Knowledge-CLIP은 CLIP에 비해 이미지-텍스트 검색 task에서 향상되며(Flickr30K 및 COCO Caption) 다중 모달 VQA 태스크에서도 우수한 성능을 보인다.
- 또한 VQA/SNLI-VE 및 ImageNet/GLUE 벤치마크에서도 경쟁력 있거나 우수한 결과를 낼 수 있으며 특히 의미 추론이 필요한 태스크에서 강하다.
- Ablation은 E2E, E2R, G2E 손실 각각이 이득에 기여하며 KD 손실은 망각 방지에 필수적임을 보여준다.
- CLIP 초기화를 통한 연속 학습은 더 많은 지식 데이터만으로의 naive한 CLIP 미세조정보다 더 나은 성능을 낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.