QUICK REVIEW

[论文解读] Visual Storytelling

Ting-Hao, Huang|arXiv (Cornell University)|Apr 13, 2016

Multimodal Machine Learning Applications被引用 110

一句话总结

引入了第一個用於序列視覺到語言的數據集（SIND: Sequential Images Narrative Dataset），並通過分別從獨立、按序列、故事中收集描述來研究視覺講故事；提出自動評估指標 METEOR，並使用具有講故事特定解碼啟發式的 sequence-to-sequence GRU 模型作為強基線。

ABSTRACT

We introduce the first dataset for sequential vision-to-language, and explore how this data may be used for the task of visual storytelling. The first release of this dataset, SIND v.1, includes 81,743 unique photos in 20,211 sequences, aligned to both descriptive (caption) and story language. We establish several strong baselines for the storytelling task, and motivate an automatic metric to benchmark progress. Modelling concrete description as well as figurative and social language, as provided in this dataset and the storytelling task, has the potential to move artificial intelligence from basic understandings of typical visual scenes towards more and more human-like understanding of grounded event structure and subjective expression.

研究动机与目标

通過對圖像序列中的敘事建模，推動 AI 趨近於人類般的理解。
創建一個數據集，將字面圖像描述與故事級語言聯繫起來。
提供視覺講故事進展的基線與自動評估指標。
探索時序上下文如何影響從視覺序列生成語言。

提出的方法

構建一個大規模的序列視覺到語言數據集，具有三個語言層級（DII、DIS、SIS），與相同圖像對齊。
使用兩階段工作流程（講故事與復述）來眾測故事與描述，並進行文本後處理（分詞、姓名匿名化）。
使用帶有 GRU 編碼器的序列到序列 RNN，對圖像序列特徵進行編碼，生成跨多張圖像的故事，作為基線。
評估解碼策略（束搜索 vs 貪婪）並引入啟發式方法以避免重複，並授權來自 caption 模型的視覺為基礎的詞彙。
提出 METEOR 作為自動評估指標，並與 BLEU 及 Skip-Thoughts 對人類評判進行比較。
提供逐圖像與序列層面的輸出，用以分析描述與故事之間的差異。

实验结果

研究问题

RQ1具有對齊描述與故事的序列圖像數據集，是否能促進對具體事件結構與主觀表達的建模？
RQ2時序上下文如何影響對圖像序列的描述性與叙事性語言生成？
RQ3哪種自動評估指標最能與人類評判在視覺講故事中相吻合？
RQ4哪些基線與解碼策略能從圖像序列生成有意義的故事？

主要发现

發布了一個大規模數據集（SIND），包含 81,743 張唯一照片，分佈於 20,211 個序列，覆蓋三個語言層級（DII、DIS、SIS）。
METEOR 與人類評判的相關性在自動評估指標中最佳。
貪婪解碼（束大小為 1）相比束搜索顯著提高了故事生成的 METEOR 分數，在一個設置中報告增益為 4.6 METEOR 點。
額外的啟發式方法以避免內容詞重複，並允許從描述模型取得視覺上有根據的詞彙，在另一種設置中使 METEOR 再提升 1.3 點。
使用 GRU 編碼器/解碼器的基線序列到序列模型能從圖像特徵序列生成故事，說明講故事與字幕標註的明顯不同挑戰。
該數據集揭示各層級的語言變化：DII 傾向使用通用詞，DIS 增加序列上下文，SIS 引入名字、時間線索以及更具動態性的語言。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。