QUICK REVIEW

[논문 리뷰] Object Relational Graph with Teacher-Recommended Learning for Video Captioning

Ziqi Zhang, Yaya Shi|arXiv (Cornell University)|2020. 02. 26.

Multimodal Machine Learning Applications참고 문헌 44인용 수 39

한 줄 요약

이 논문은 외부 언어 모델을 활용한 교사-추천 학습 전략과 GCN 기반 관계 추론을 갖춘 객체-관계 그래프 인코더를 도입하여 비디오 자막 생성을 향상시킨다.

ABSTRACT

Taking full advantage of the information from both vision and language is critical for the video captioning task. Existing models lack adequate visual representation due to the neglect of interaction between object, and sufficient training for content-related words due to long-tailed problems. In this paper, we propose a complete video captioning system including both a novel model and an effective training strategy. Specifically, we propose an object relational graph (ORG) based encoder, which captures more detailed interaction features to enrich visual representation. Meanwhile, we design a teacher-recommended learning (TRL) method to make full use of the successful external language model (ELM) to integrate the abundant linguistic knowledge into the caption model. The ELM generates more semantically similar word proposals which extend the ground-truth words used for training to deal with the long-tailed problem. Experimental evaluations on three benchmarks: MSVD, MSR-VTT and VATEX show the proposed ORG-TRL system achieves state-of-the-art performance. Extensive ablation studies and visualizations illustrate the effectiveness of our system.

연구 동기 및 목표

프레임 간 객체 간 상호작용을 통해 시각 표현을 풍부하게 하여 향상된 비디오 자막 생성을 유도한다.
훈련 중 외부 언어 모델로부터의 언어 지식을 통합하여 긴 꼬리 단어 분포를 다룬다.
일반화 향상을 위해 시각적 관계 추론과 교사 지향 언어 학습을 결합한 학습 전략을 개발한다.

제안 방법

GCN을 사용하여 객체 간의 시공간 상호작용을 모델링하는 학습 가능한 Object Relational Graph(ORG)를 구성한다.
그래프의 두 변형을 구현한다: 프레임 내의 Partial ORG(P-ORG)와 비디오 전반에 걸친 Complete ORG(C-ORG)으로 상위 k 연결을 사용한다.
External Language Model(ELM)을 사용하여 소프트 타깃을 생성하고 어학적으로 다양한 단어 제안을 통해 학습을 풍부하게 하는 Teacher-Recommended Learning(TRL)을 도입한다.
하드 타깃의 교차 엔트로피와 ELM으로부터의 소프트 타깃과의 KL 발산을 결합한 합동 손실로 자막 모델을 학습한다 (L = lambda * L_KL + (1-lambda) * L_CE).
전역 및 지역 맥락 특징을 통합하는 시간-공간 주의가 있는 계층적 디코더를 통해 단어 생성을 설명한다.

실험 결과

연구 질문

RQ1객체 수준의 관계 추론이 비디오 자막 생성을 위한 시각 표현을 어떻게 향상시킬 수 있는가?
RQ2외부 언어 지식이 자막 생성 모델에 효과적으로 통합되어 긴 꼬리 단어 분포를 완화할 수 있는가?
RQ3ORG 기반 관계 인코딩과 TRL의 결합이 표준 비디오 자막 벤치마크에 미치는 영향은 무엇인가?

주요 결과

모델	특징	MSVD B@4	MSVD METEOR	MSVD ROUGE-L	MSVD CIDEr	MSR-VTT B@4	MSR-VTT METEOR	MSR-VTT ROUGE-L	MSR-VTT CIDEr
ORG-TRL	InceptionResNetV2; C3D; FasterRCNN	54.3	36.4	73.9	95.2	43.6	28.8	62.1	50.9

ORG 인코더는 GCN을 통해 상호작용을 모델링함으로써 객체 표현을 향상시킨다(P-ORG 및 C-ORG).
TRL은 오프라인 ELM(예: BERT)을 활용하는 소프트 타깃을 제공하여 긴 꼬리 단어 문제를 완화하고 자막의 언어적 다양성을 높인다.
결합된 ORG-TRL 시스템은 MSVD, MSR-VTT 및 VATEX 벤치마크에서 최신 성능을 달성한다.
배치 연구는 top-k 설정(k=5)인 C-ORG가 최상의 결과를 낳고, TRL은 일관되게 성능에 이익을 준다.
정성적 결과는 객체 관계와 동작을 포착한 더 풍부하고 자세한 자막을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.