QUICK REVIEW

[논문 리뷰] KM-BART: Knowledge Enhanced Multimodal BART for Visual Commonsense Generation

Yiran Xing, Zai Shi|arXiv (Cornell University)|2021. 01. 02.

Multimodal Machine Learning Applications참고 문헌 29인용 수 4

한 줄 요약

KM-BART는 외부 공통지식 지식을 통합하기 위한 새로운 사전학습 작업인 지식 기반 공통지식 생성(KCG)을 통해 시각적 공통지식 생성을 향상시키는 지식 강화 다중모달 BART 모델이다. 이 모델은 VCG 벤치마크에서 최신 기술 성능을 기록하며, 인간 평가에서 이전 모델 대비 최대 22.6% 향상되었으며, 특히 이벤트 기술이 없는 제로샷 설정에서 두각을 나타낸다.

ABSTRACT

We present Knowledge Enhanced Multimodal BART (KM-BART), which is a Transformer-based sequence-to-sequence model capable of reasoning about commonsense knowledge from multimodal inputs of images and texts. We adapt the generative BART architecture to a multimodal model with visual and textual inputs. We further develop novel pretraining tasks to improve the model performance on the Visual Commonsense Generation (VCG) task. In particular, our pretraining task of Knowledge-based Commonsense Generation (KCG) boosts model performance on the VCG task by leveraging commonsense knowledge from a large language model pretrained on external commonsense knowledge graphs. To the best of our knowledge, we are the first to propose a dedicated task for improving model performance on the VCG task. Experimental results show that our model reaches state-of-the-art performance on the VCG task by applying these novel pretraining tasks.

연구 동기 및 목표

기본적인 특징 정렬을 넘어서 다중모달 공통지식 추론을 향상시키기 위해 시각적 텍스트 생성에서의 다중모달 공통지식 추론을 향상시키는 것.
시각적 공통지식 생성(VCG)을 위한 전용 사전학습 작업의 부족을 해결하는 것.
지식 그래프에서 유래한 외부 공통지식을 다중모달 순서-순서 모델에 통합하는 것.
자동으로 생성된 공통지식 추론을 통한 자기학습을 통해 생성 품질을 향상시키는 것.

제안 방법

시각적 및 텍스처 입력을 포함한 다중모달 인코더-디코더 프레임워크로 BART 아키텍처를 확장하는 것.
이전/이후/의도 예측을 위한 다중모달 추론을 유도하기 위해 작업 전용 토큰을 도입하는 것.
대규모 언어 모델을 ConceptNet과 ATOMIC에 맞추어 미세조정한 후, 그로부터 지식을 주입하기 위한 새로운 사전학습 작업인 지식 기반 공통지식 생성(KCG)을 제안하는 것.
대규모 언어 모델을 사용해 고품질의 공통지식 추론을 필터링하고 생성하여 사전학습에 활용하는 자기학습 기법을 사용하는 것.
KCG를 표준 사전학습 작업(Masked Language Modeling, MLM; Masked Region Modeling, MRM; Attribution Prediction, AP; Relation Prediction, RP)과 결합하는 것.
두 단계 학습 프로세스를 적용: 먼저 KCG 및 표준 작업에서 사전학습을 수행하고, 이후 VCG 데이터셋에서 미세조정하는 것.

실험 결과

연구 질문

RQ1외부 지식을 통합함으로써 다중모달 순서-순서 모델이 더 나은 시각적 공통지식 생성을 달성할 수 있는가?
RQ2표준 사전학습 대비 공통지식 추론에 집중한 전용 사전학습 작업이 VCG 성능 향상에 기여하는가?
RQ3대규모 언어 모델을 활용한 자기학습이 사전학습을 위한 고품질 공통지식 추론 생성에 얼마나 효과적인가?
RQ4이벤트 기술이 없는 제로샷 설정에서도 모델이 일반화 가능한가?
RQ5ConceptNet과 ATOMIC의 지식 통합이 시각 입력에 대한 추론을 어떻게 향상시키는가?

주요 결과

KM-BART는 VCG 벤치마크에서 최신 기술 성능을 기록하며, 이벤트 기술이 없는 제로샷 설정에서 총 점수 66.7%를 기록하여 Park et al. (2020) 대비 22.6% 향상되었다.
인간 평가에서 이벤트 기술이 제공되지 않은 상황에서 KM-BART는 '이전'의 경우 61.3%, '이후'의 경우 68.7%, '의도'의 경우 69.3%의 경우에 Park et al. (2020)보다 더 합리적인 추론을 생성하였다.
이벤트 기술이 있는 경우에도 모델은 강력한 성능을 유지하였으며, 전체 인간 평가에서 기준 모델 대비 55.1%의 우수성을 기록하였다.
KCG 사전학습 작업은 특히 제로샷 시나리오에서 성능 향상을 크게 이끌어내어 공통지식 추론 향상의 효과성을 입증하였다.
KCG를 표준 사전학습 작업(MLM, MRM, AP, RP)과 결합함으로써 모든 평가 지표에서 일관된 성능 향상이 관찰되었다.
모델는 강건성과 일반화 능력을 보였으며, 특히 이벤트 기술이 없는 경우 가장 높은 성능 향상을 보여, 강력한 지식 통합 및 추론 능력을 갖추고 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.