QUICK REVIEW

[논문 리뷰] Information Screening whilst Exploiting! Multimodal Relation Extraction with Feature Denoising and Multimodal Topic Modeling

Shengqiong Wu, Hao Fei|arXiv (Cornell University)|2023. 05. 19.

Topic Modeling인용 수 21

한 줄 요약

다중모달 관계 추출 프레임워크를 도입하여 그래프 정보 병목으로 내부 피처를 노이즈 제거하고, 잠재 다중모달 주제로 맥락을 풍부하게 하며, 벤치마크 MRE 데이터셋에서 SOTA를 달성합니다.

ABSTRACT

Existing research on multimodal relation extraction (MRE) faces two co-existing challenges, internal-information over-utilization and external-information under-exploitation. To combat that, we propose a novel framework that simultaneously implements the idea of internal-information screening and external-information exploiting. First, we represent the fine-grained semantic structures of the input image and text with the visual and textual scene graphs, which are further fused into a unified cross-modal graph (CMG). Based on CMG, we perform structure refinement with the guidance of the graph information bottleneck principle, actively denoising the less-informative features. Next, we perform topic modeling over the input image and text, incorporating latent multimodal topic features to enrich the contexts. On the benchmark MRE dataset, our system outperforms the current best model significantly. With further in-depth analyses, we reveal the great potential of our method for the MRE task. Our codes are open at https://github.com/ChocoWu/MRE-ISE.

연구 동기 및 목표

텍스트와 이미지 입력 모두에 대해 세밀한 특징 선별로 내부 정보의 과다 활용 문제를 해결한다.
잠재 다중모달 토픽 모델링을 활용하여 맥락 정보를 풍부하게 하여 외부 정보의 저활용 문제를 해결한다.
텍스트 및 시각 장면 그래프를 융합하고 이를 그래프 정보 병목으로 다듬는 교차 모드 그래프 백본을 제안한다.
CMG에 시각 및 텍스트 주제 키워드를 통합하는 잠재 다중모달 토픽(Lamo) 모듈을 도입한다.
내부 선별과 외부 활용의 결합이 MRE 데이터셋에서 유의미한 이득을 가져다주며 각 구성요소가 언제 가장 효과적인지 분석한다.

제안 방법

시각적 장면 그래프(VSG)와 텍스트 장면 그래프(TSG)로 입력 이미지와 텍스트를 표현한다.
VSG와 TSG를 intra- 및 inter-modal 링크를 가진 교차 모드 그래프(CMG)로 융합한다.
그래프 정보 병목(GIB) 기반 특징 정제(Gene)를 적용하여 작업과 무관한 노드/에지를 제거한다.
잠재 다중모달 주제(Lamo) 모델링을 개발하여 상위 텍스트 및 시각 토픽을 추출하고 이를 CMG에 통합한다.
텍스트 및 시각 토픽 키워드에 대한 주의(attention)와 정제된 CMG 특징과의 연결을 통해 교차 모드 토픽 통합을 수행한다.
warm-start로 학습을 진행한다: 먼저 Gene를 GIB 손실로 최적화하고, 그다음 Lamo를 LAMO 손실로 프리-훈련한 뒤, 마지막으로 교차 엔트로피 손실로 엔드-투-엔드로 공동 학습한다.

실험 결과

연구 질문

RQ1세밀한 내부 정보 선별이 시각/텍스트 특징의 무관한 정보를 제거함으로써 다중모달 관계 추출을 개선할 수 있는가?
RQ2잠재 다중모달 토픽을 통한 외부 정보 활용이 맥락을 풍부하게 하여 추론을 향상시키는가?
RQ3Gene(GIB)와 Lamo가 서로 어떻게 상호 작용하여 텍스트-비전 관련도가 바뀌는 다양한 상황에서 관계 예측을 개선하는가?
RQ4교차 모드 그래프 구조와 SG의 품질이 MRE 성능에 미치는 영향은 무엇인가?
RQ5데이터 상황(높은/낮은 텍스트-비전 관련성)에서 내부 선별과 외부 활용 중 어느 쪽이 더 기여하는가?

주요 결과

방법	Acc.	Pre.	Rec.	F1
텍스트 기반 방법 - BERT	-	63.85	55.79	59.55
텍스트 기반 방법 - PCNN	72.67	62.85	49.69	55.49
텍스트 기반 방법 - MTB	72.73	64.46	57.81	60.86
텍스트 기반 방법 - DP-GCN	74.60	64.04	58.44	61.11
다중모달 방법 - BERT(Text+Image)	74.59	63.07	59.53	61.25
다중모달 방법 - BERT+SG	74.09	62.95	62.65	62.80
다중모달 방법 - MEGA	76.15	64.51	68.44	66.41
다중모달 방법 - VisualBERT	-	57.15	59.48	58.30
다중모달 방법 - ViLBERT	-	64.50	61.86	63.16
다중모달 방법 - RDS	-	66.83	65.47	66.14
다중모달 방법 - HVPNet	-	83.64	80.78	81.85
다중모달 방법 - MKGformer	-	92.31	82.67	81.95
본 방법	94.06	84.69	83.38	84.03
Gene 제외 (Eq. 11)	92.42	82.41	81.83	82.12
I(z,G) 제외 (Eq. 13)	93.64	83.61	82.34	82.97
Lamo 제외 (Eq. 4)	92.86	82.97	81.22	82.09
o^T 제외	93.05	83.95	82.53	83.23
o^I 제외	93.63	84.03	83.18	83.60
VSG&TSG 제외	93.12	83.51	82.67	83.09
CMG 제외	93.97	84.38	83.20	83.78

제안된 프레임워크는 벤치마크 MRE 데이터셋에서 최첨단(SOTA) 결과를 달성하며 강력한 다중모달 베이스라인을 능가한다.
GIB-가이드 특징 정제는 입력 특징을 노이즈 제거하여 작업 중심 표현을 개선한다.
잠재 다중모달 주제 모델링(Lamo)은 일관된 텍스트 및 시각 주제 특징을 제공하여 맥락을 풍부하게 하고 예측을 향상시킨다.
ablation 연구에서 Gene와 Lamo가 모두 상당한 기여를 하며 SG 기반의 교차 모드 그래프와 CMG 연결성이 중요하다.
분석에 따르면 Gene는 텍스트-비전 관련성이 높은 상황에서 더 이롭고, Lamo는 교차 모달 관련성이 낮은 경우에 더 도움이 되며 두 요소를 함께 사용하면 다양한 시나리오에서 강건한 이득을 얻는다.
정성적 사례 연구에서 작업 관련 에지와 주제 키워드가 지도하는 관계 추론으로 그래프가 정제된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.