[논문 리뷰] Structure Guided Multi-modal Pre-trained Transformer for Knowledge Graph Reasoning
SGMPT는 그래프 구조 정보를 구조 인코더와 구조 가이드 융합 모듈을 통해 명시적으로 활용하는 지식 그래프 추론을 위한 최초의 다중 모달 사전학습 트랜스포머 모델이다. FB15k-237-IMG와 WN18-IMG에서 다중 모달 KGR 성능을 향상시킨다.
Multimodal knowledge graphs (MKGs), which intuitively organize information in various modalities, can benefit multiple practical downstream tasks, such as recommendation systems, and visual question answering. However, most MKGs are still far from complete, which motivates the flourishing of MKG reasoning models. Recently, with the development of general artificial architectures, the pretrained transformer models have drawn increasing attention, especially for multimodal scenarios. However, the research of multimodal pretrained transformer (MPT) for knowledge graph reasoning (KGR) is still at an early stage. As the biggest difference between MKG and other multimodal data, the rich structural information underlying the MKG still cannot be fully leveraged in existing MPT models. Most of them only utilize the graph structure as a retrieval map for matching images and texts connected with the same entity. This manner hinders their reasoning performances. To this end, we propose the graph Structure Guided Multimodal Pretrained Transformer for knowledge graph reasoning, termed SGMPT. Specifically, the graph structure encoder is adopted for structural feature encoding. Then, a structure-guided fusion module with two different strategies, i.e., weighted summation and alignment constraint, is first designed to inject the structural information into both the textual and visual features. To the best of our knowledge, SGMPT is the first MPT model for multimodal KGR, which mines the structural information underlying the knowledge graph. Extensive experiments on FB15k-237-IMG and WN18-IMG, demonstrate that our SGMPT outperforms existing state-of-the-art models, and prove the effectiveness of the designed strategies.
연구 동기 및 목표
- 다중 모달 KGR에서 기저 그래프 구조를 활용하여 불완전한 MKG를 동기화하고 해결하려는 동기를 제시하고
- 기존의 다중 모달 사전학습 트랜스포머에 구조 정보를 주입하는 플러그 앤 플레이 구조 안내 모듈을 설계한다.
- 그래프 구조를 통합함으로써 MKGR 벤치마크 데이터세트의 추론 성능이 향상됨을 보여준다.
제안 방법
- 그래프 구조 인코더를 채택하여 엔터티의 구조적 임베딩을 생성한다.
- 두 가지 전략의 구조 가이드 융합 모듈 도입: 가중 합산 및 정렬 제약으로 텍스트 및 시각 모듀얼과 구조를 융합한다.
- MKGformer를 MPT 백본으로 사용하고 HAKE(및 변형)을 구조 인코더로 사용하여 H^s를 생성하고 L_ts, L_vs, L_a 손실을 통해 H^t 및 H^v와 정렬한다.
- 교차 엔트로피 손실 및 정렬 손실을 포함한 MLM 기반 프리트레이닝 및 파인튜닝 objective로 학습한다.
- FB15k-237-IMG 및 WN18-IMG 데이터셋에서 Hits@k 및 Mean Rank(MR)로 평가한다.
실험 결과
연구 질문
- RQ1SGMPT가 기존의 최첨단 다중 모달 KGR 모델(트랜스포머 기반 포함)을 능가하는가?
- RQ2구조 인코더와 구조 가이드 융합 모듈이 MKGR에서 그래프 구조를 활용하는 데 효과적인가?
- RQ3다른 구조 인코더가 MKGR 성능에 미치는 영향은 무엇인가?
- RQ4제안된 접근 방식의 효율성 및 민감도 특성은 무엇인가?
주요 결과
| 모델 | FB15k-237-IMG MR | FB15k-237-IMG Hits@1 | FB15k-237-IMG Hits@3 | FB15k-237-IMG Hits@10 | WN18-IMG MR | WN18-IMG Hits@1 | WN18-IMG Hits@3 | WN18-IMG Hits@10 |
|---|---|---|---|---|---|---|---|---|
| TransE | 323 | 19.8 | 37.6 | 44.1 | 357 | 4.0 | 74.5 | 92.3 |
| DisMult | 512 | 19.9 | 30.1 | 44.6 | 665 | 33.5 | 87.6 | 94.0 |
| ComplEx | 546 | 19.4 | 29.7 | 45.0 | - | 93.6 | 94.5 | 94.7 |
| ConvE | 249 | 22.5 | 34.1 | 49.7 | - | 41.9 | 47.0 | 53.1 |
| RGCN | 600 | 10.0 | 18.1 | 30.0 | - | 8.0 | 13.7 | 20.7 |
| IKRL(UNION) | 298 | 19.4 | 28.4 | 45.8 | 596 | 12.7 | 79.6 | 92.8 |
| TransAE | 431 | 19.9 | 31.7 | 46.3 | 352 | 32.3 | 83.5 | 93.4 |
| RSME(ViT-B/32+Forget) | 417 | 24.2 | 34.4 | 46.7 | - | 94.3 | 95.1 | - |
| KG-BERT | 153 | - | - | - | 58 | 11.7 | 68.9 | 92.6 |
| VisualBERT | 592 | 21.7 | 32.4 | 43.9 | 122 | 17.9 | 43.7 | 65.4 |
| ViLBERT | 483 | 23.3 | 33.5 | 45.7 | 131 | 22.3 | 55.2 | 76.1 |
| MKGformer | 252 | 24.3 | 36.0 | 49.9 | 25 | 93.5 | 95.8 | 97.0 |
| SGMPT | 238 | 25.2 | 37.0 | 51.0 | 29 | 94.3 | 96.6 | 97.8 |
- SGMPT가 벤치마크 데이터셋에서 모든 비-트랜스포머 KGR 모델보다 성능이 뛰어나다.
- SGMPT는 FB15k-237-IMG에서 특히 더 높은 Hits@1, Hits@3, Hits@10를 달성했고 대부분의 트랜스포머 KGR 모델보다 우수하다.
- 결손/고찰에서 가중 합산과 정렬 제약 모두 성능에 기여하고 텍스트-구조 및 비전-구조 융합이 이점을 제공한다.
- HAKE를 구조 인코더로 사용할 때 강력한 결과를 얻었고 HousE와 COMPGCN 등 다른 인코더도 평가되었다.
- FB15k-237-IMG에서 SGMPT MR=238, Hits@1=25.2, Hits@3=37.0, Hits@10=51.0; WN18-IMG에서 MR=29, Hits@1=94.3, Hits@3=96.6, Hits@10=97.8.
- MKGformer와 비교했을 때 SGMPT는 Hits@1/3/10에서 현저한 향상을 보이며 MR는 경쟁력을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.