QUICK REVIEW

[논문 리뷰] Contextualize, Show and Tell: A Neural Visual Storyteller

Diana Gonzalez-Rico, Gibrán Fuentes-Pineda|arXiv (Cornell University)|2018. 06. 03.

Multimodal Machine Learning Applications참고 문헌 8인용 수 29

한 줄 요약

이 논문은 Vinyals 등이 제안한 Show and Tell 모델을 확장하여 이미지 시퀀스를 요약하는 컨텍스트 인코딩 LSTM과 개별 이미지 임베딩에 조건부인 다수의 독립적 디코더를 사용하는 신경망 시각 스토리텔링 모델을 제안한다. 이 모델은 Visual Storytelling Challenge 2018에서 경쟁적인 METEOR 점수와 뛰어난 인간 평가 결과를 기록하여 기존의 기준 모델 대비 향상된 서사 일관성과 스토리 구조를 입증하였다.

ABSTRACT

We present a neural model for generating short stories from image sequences, which extends the image description model by Vinyals et al. (Vinyals et al., 2015). This extension relies on an encoder LSTM to compute a context vector of each story from the image sequence. This context vector is used as the first state of multiple independent decoder LSTMs, each of which generates the portion of the story corresponding to each image in the sequence by taking the image embedding as the first input. Our model showed competitive results with the METEOR metric and human ratings in the internal track of the Visual Storytelling Challenge 2018.

연구 동기 및 목표

다섯 장의 이미지 시퀀스에서 일관성 있고 서사 중심의 스토리를 생성하여 단순한 이미지 캡션화를 넘어서는 것.
이미지 시퀀스 전반에 걸쳐 서사 일관성과 서사 진행을 유지하는 데 도전하는 것.
스토리 생성 과정에서 전반적인 컨텍스트와 국소적인 이미지 특화 정보를 통합하여 기존의 이미지 기술 모델을 향상시키는 것.
Visual Storytelling Challenge 2018에서 자동 평가 지표와 인간 평가에서 경쟁적인 성능을 달성하는 것.

제안 방법

에코더 LSTM이 이미지 시퀀스를 단계별로 처리하여 전체 시퀀스를 나타내는 컨텍스트 벡터를 생성한다.
에코더 LSTM의 최종 은닉 상태가 다섯 개의 독립적 디코더 LSTM의 초기 은닉 상태로 사용된다.
각 디코더는 해당 이미지의 임베딩(이н셉션 V3를 통해 추출)과 공유된 컨텍스트 벡터에 조건을 받으며, 스토리의 일부를 생성한다.
단어 임베딩은 word2vec을 사용하여 학습되며, 최종 스토리는 다섯 개의 디코더 출력을 연결하여 구성된다.
공유된 컨텍스트를 가지지만 각 이미지 위치에 대해 독립적인 디코더를 갖는 시퀀스-투-시퀀스 아키텍처를 사용한다.
이 아키텍처는 각 디코더가 스토리 내 특정 위치(예: 서두, 막내 문장)에 맞는 전문화된 언어 모델을 학습할 수 있도록 한다.

실험 결과

연구 질문

RQ1공유된 컨텍스트 벡터를 사용하는 컨텍스트 인코딩 인코더와 다수의 디코더가 단일 디코더 모델 대비 서사 일관성 향상에 기여하는가?
RQ2이미지 시퀀스로 훈련된 모델이 어떻게 비주얼 기반이면서도 체계적인 서사를 생성할 수 있는가?
RQ3위치별로 특화된 디코더와 공유된 컨텍스트 벡터를 사용할 경우, 일반적인 시퀀스-투-시퀀스 접근 방식 대비 스토리 품질 향상 정도는 어떠한가?
RQ4자동 평가 지표인 METEOR와 인간 평가 점수 간의 상관관계는 시각적 스토리텔링의 스토리 품질과 얼마나 관련이 있는가?

주요 결과

이 모델은 VIST 2018 챌린지의 공개 테스트 세트에서 METEOR 점수 0.3088점, 은닉 테스트 세트에서 0.3100점을 기록하였다.
인간 평가에서 총 평가 점수 23.596점 중 18.498점으로, 일관성, 집중도, 인간다움 측면에서 뛰어난 성능을 보였다.
기준 모델 대비 METEOR 및 BLEU-3 지표에서 슈퍼어리어티를 확보하였으며, METEOR 점수는 Huang 등(31.4점)과 Yu 등(34.1점) 대비 각각 34.4점으로 높았다.
강력한 자동 평가 점수에도 불구하고 인간 평가 결과에서 시각적 기반성과 세부 정보 부족이 드러났으며, 각각 2.886점과 2.893점의 낮은 점수를 기록하였다.
모델은 문법적으로 올바르고 일관성 있는 스토리를 생성하였지만, 일부 출력에는 반복적인 표현이나 일반적인 표현(예: '이것은 가게의 사진입니다')이 포함되어 있었다.
전반적으로 경쟁력 있는 성능를 보였지만, ROUGE 및 CIDEr 지표에서 Yu 등의 모델에 뒤처져 유창성과 어휘 다양성 향상 여지가 있음을 시사하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.