Skip to main content
QUICK REVIEW

[論文レビュー] Visual Storytelling

Ting-Hao, Huang|arXiv (Cornell University)|Apr 13, 2016
Multimodal Machine Learning Applications被引用数 110
ひとこと要約

Sequential Images Narrative Dataset(SIND: Sequential Images Narrative Dataset)に関する初のデータセットを紹介し、孤立した画像、連続する画像、そしてストーリーからの記述を収集して視覚的ストーリーテリングを検討する。自動評価指標 METEOR の提案と、ストーリーテリング専用のデコーディングヒューリスティクスを備えた sequence-to-sequence GRU モデルを用いる強力なベースラインを提案する。

ABSTRACT

We introduce the first dataset for sequential vision-to-language, and explore how this data may be used for the task of visual storytelling. The first release of this dataset, SIND v.1, includes 81,743 unique photos in 20,211 sequences, aligned to both descriptive (caption) and story language. We establish several strong baselines for the storytelling task, and motivate an automatic metric to benchmark progress. Modelling concrete description as well as figurative and social language, as provided in this dataset and the storytelling task, has the potential to move artificial intelligence from basic understandings of typical visual scenes towards more and more human-like understanding of grounded event structure and subjective expression.

研究の動機と目的

  • 画像系列における人間のような理解を目指す物語モデリングを通じたAIの高度化。
  • 文字通りの画像記述と物語レベルの言語を結びつけるデータセットの作成。
  • 視覚ストーリーテリングの進展のためのベースラインと自動評価指標の提供。
  • 画像シークエンスの時間的文脈が言語生成に与える影響の探究。

提案手法

  • 同じ画像に合わせて三つの言語層(DII、DIS、SIS)を持つ大規模な連続視覚-言語データセットを構築する。
  • 二段階のワークフロー(storytellingとre-telling)を用いて物語と記述をクラウドソーシングし、テキストを後処理する(tokenization、name anonymization)。
  • 画像系列特徴に対するGRUエンコーダを用いたsequence-to-sequence RNNで、複数の画像にまたがる物語を生成するベースラインを開発する。
  • デコーディング戦略(beam search vs greedy)を評価し、繰り返しを避け、キャプションモデルから視覚的根拠のある語を許容するヒューリスティックを導入する。
  • METEOR を自動評価指標として提案し、BLEU と Skip-Thoughts を人間の判断と比較する。
  • 各画像およびシーケンスレベルの出力を提供して、記述と物語の差を分析する。

実験結果

リサーチクエスチョン

  • RQ1説明と物語が整列した連続画像のデータセットは、根拠のある出来事構造と主観的表現のモデリングを可能にするか?
  • RQ2時間的文脈は、画像シークエンスの記述と物語風言語生成にどう影響するか?
  • RQ3視覚的ストーリーテリングにおいて、どの自動指標が人間の判断と最もよく相関するか?
  • RQ4画像シークエンスから意味のある物語を生み出すベースラインとデコーディング戦略は何か?

主な発見

  • 三つの言語層(DII、DIS、SIS)に跨る20,211シーケンス、81,743枚のユニークな写真を含む大規模データセット(SIND)を公開。
  • METEOR が自動指標の中でストーリーテリング評価において人間の判断と最も高い相関を示す。
  • Greedy decoding(ビームサイズ1)は、ビーム探索と比較して物語生成のMETEORスコアを著しく向上させ、ある設定で4.6 METEORポイントの利得が報告された。
  • 内容語の繰り返しを避け、キャプションモデルから視覚的根拠語を許容する追加ヒューリスティックにより、別の設定でMETEORをさらに1.3ポイント改善。
  • GRUエンコーダ/デコーダを用いたベースラインの sequence-to-sequence モデルは、画像特徴のシーケンスから物語を生成できることを示し、キャプション作成と物語作成の明確な課題の違いを浮き彫りにする。
  • データセットは層を超えた語彙の変化を示す:DII は一般的な語を用いる、DIS はシーケンス文脈を加え、SIS は名前、時間的手掛かり、そしてよりダイナミックな言語を導入する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。