QUICK REVIEW

[논문 리뷰] Neural Language Modeling with Visual Features

Antonios Anastasopoulos, Shankar Kumar|arXiv (Cornell University)|2019. 03. 07.

Multimodal Machine Learning Applications참고 문헌 23인용 수 23

한 줄 요약

이 논문은 영상의 시간적 시각적 특징을 텍스트 기반 언어 모델링에 통합하는 다중모달 순환 신경망 언어 모델을 제안한다. 시각적 및 텍스트 임베딩의 중간 융합을 통해 YouCook2에서 28%의 상대적 어휘 어려움 감소와 Something-Something-v2에서 20%의 감소를 달성하며, 특히 영상에 존재하는 개체에 대해 기존의 텍스트 전용 기준 모델 및 이전 연구를 크게 앞서며 성능을 높였다.

ABSTRACT

Multimodal language models attempt to incorporate non-linguistic features for the language modeling task. In this work, we extend a standard recurrent neural network (RNN) language model with features derived from videos. We train our models on data that is two orders-of-magnitude bigger than datasets used in prior work. We perform a thorough exploration of model architectures for combining visual and text features. Our experiments on two corpora (YouCookII and 20bn-something-something-v2) show that the best performing architecture consists of middle fusion of visual and text features, yielding over 25% relative improvement in perplexity. We report analysis that provides insights into why our multimodal language model improves upon a standard RNN language model.

연구 동기 및 목표

영상의 시간적 시각적 맥락을 통합함으로써 신경 언어 모델링 성능이 향상되는지 조사하는 것.
순환 언어 모델에서 시각적 및 텍스트적 특징을 융합하기 위한 아키텍처 설계를 탐색하는 것.
이전의 다중모달 언어 모델링 연구보다 두 배 이상 큰 규모의 데이터셋에서 학습 및 평가를 수행하는 것.
특히 영상에 존재하는 개체에 대해 시각적 특징이 예측에 의미 있게 활용되는지 확인하는 것.
시각적 맥락이 어휘 어려움 감소 및 모델의 강인성에 기여하는 정도를 분석하는 것.

제안 방법

모델는 각 시점에서 단어 임베딩과 영상 프레임 임베딩을 연결하여 구성된 입력 특징을 사용하는 표준 RNNLM을 사용한다.
세 가지 융합 전략을 평가한다: 초기 융합(단어 및 시각 임베딩의 연결), 중간 융합(RNN 은닉층 내에서 융합), 후기 융합(별도 처리 후 후기 연결).
선형 조합 변형은 학습 가능한 행렬 $ K^w $ 및 $ K^v $ 를 사용해 단어 및 시각 임베딩의 가중 합을 학습한다.
학습된 가중치 메커니즘은 현재 단어 맥락에 따라 시각 임베딩을 조절하는 시그모이드 게이트를 적용한다.
두 개의 대규모 데이터셋에서 모델을 학습한다: YouCook2(2,000개의 요리 영상 및 음성 인식 텍스트)와 Something-Something-v2(220만 개의 짧은 동작 영상 및 템플릿 기반 기술서).
어휘 어려움은 검증 세트에서 계산되며, 시각적 특징의 영향을 평가하기 위해 제로 벡터로 대체한 아블레이션 스터디를 실시한다.

실험 결과

연구 질문

RQ1영상에서 시간적 시각적 특징을 통합하면 언어 모델링의 어휘 어려움에 측정 가능한 향상이 이루어지는가?
RQ2초기, 중간, 후기 융합 중에서 시각적 및 텍스트적 특징을 언어 모델링에 가장 효과적으로 통합하는 아키텍처는 무엇인가?
RQ3영상에 존재하는 개체를 나타내는 단어를 예측하는 데 있어 시각적 특징이 어느 정도 기여하는가?
RQ4시각적 특징이 없거나 학습 및 테스트 데이터 간 도메인 이탈이 발생할 경우, 다중모달 모델의 강인성은 어떻게 되는가?
RQ5모델이 현재 단어 맥락에 따라 시각 입력을 게이팅하거나 가중치를 조절하는 데 효과적으로 학습할 수 있는가?

주요 결과

시각적 및 텍스트적 특징의 중간 융합이 가장 뛰어난 성능을 보이며, YouCook2 데이터셋에서 텍스트 전용 기준 모델 대비 28%의 상대적 어휘 어려움 감소를 달성한다.
후기 융합은 YouCook2에서 12%의 상대적 어휘 어려움 감소, Something-Something-v2에서 5%의 감소를 기록하여 후기 통합의 중간 정도의 성능 향상을 보인다.
초기 융합은 텍스트 전용 기준 모델보다 성능이 열 劣하므로, 초기 연결이 효과적인 언어 모델링을 방해함을 시사한다.
선형 조합 및 학습된 가중치 변형은 각각 YouCook2에서 6% 및 14%의 상대적 성능 향상을 보였지만, Something-Something-v2에서는 제한된 성능 향상을 보였다.
시각적 특징을 무시하게 하면 텍스트 전용 모델과 유사한 성능을 보이며, 이는 시각적 특징이 활성적으로 사용되고 있음을 확인한다.
어휘 어려움 감소의 가장 큰 향상은 영상에 존재하는 개체를 나타내는 단어 조각에 대해 발생하며, 88%의 문장에서 다중모달 모델이 더 좋은 점수를 기록했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.