QUICK REVIEW

[論文レビュー] Dank Learning: Generating Memes Using Deep Neural Networks

Abel L. Peirson, E Meltem Tolunay|arXiv (Cornell University)|Jun 8, 2018

Multimodal Machine Learning Applications参考文献 14被引用数 37

ひとこと要約

本論文では、微調整されたInception-v3エンコーダーとアテンションベースのLSTMデコーダーを用いて、入力画像から面白く関連性のあるミームキャプションを生成するディーブラーニングシステムを提示する。モデルは人間の評価において、70％の生成ミームが合成であると識別されないほど人間と区別がつかない水準に達している。

ABSTRACT

We introduce a novel meme generation system, which given any image can produce a humorous and relevant caption. Furthermore, the system can be conditioned on not only an image but also a user-defined label relating to the meme template, giving a handle to the user on meme content. The system uses a pretrained Inception-v3 network to return an image embedding which is passed to an attention-based deep-layer LSTM model producing the caption - inspired by the widely recognised Show and Tell Model. We implement a modified beam search to encourage diversity in the captions. We evaluate the quality of our model using perplexity and human assessment on both the quality of memes generated and whether they can be differentiated from real ones. Our model produces original memes that cannot on the whole be differentiated from real ones.

研究の動機と目的

任意の入力画像から面白く文脈的に適切なミームキャプションを生成できるニューラルネットワークシステムの開発。
ミームテンプレートに関連するユーザー定義ラベルをキャプション生成に条件づける影響の調査。
自動指標（パープレキシティ）と人間による面白さ・真正性の評価を用いた、生成されたミームの品質の評価。
AI生成ミームにおける多様性、独自性、文化的に共感されるユーモアを生成する挑戦への対処。
データスパarsity下におけるラベル条件づけとアテンション機構の限界の調査。

提案手法

入力画像から固定長の画像埋め込みを抽出するために事前学習済みのInception-v3ネットワークを活用。
画像埋め込みからキャプションを生成するために、アテンションベースの長短期記憶（LSTM）再帰ニューラルネットワークを採用。
繰り返しを避け、キャプションの多様性を向上させるために、変更を加えたビームサーチ戦略を適用。
意味的理解と言語モデリングの向上を図るために、事前学習済みのGloVe単語埋め込みを統合。
ユーザーが提供するラベルを条件としてキャプション生成に組み込むが、ラベルの不足のため効果は限定的であった。
言語モデリング指標としてパープレキシティを用いてモデルを微調整し、人間による面白さと区別可能性の評価を通じて結果を検証。

実験結果

リサーチクエスチョン

RQ1人間の評価において、深層学習モデルが生成したミームは、実際のミームと区別がつかないか？
RQ2ユーザー定義ラベルをキャプション生成に条件づけると、生成されたミームの多様性と関連性にどのような影響を与えるか？
RQ3アテンション機構を組み込むことで、生成キャプションの質と独自性はどの程度向上するか？
RQ4自動指標（例：パープレキシティ）と人間による面白さ・真正性の判断の間には、どの程度相関があるか？
RQ5トレーニングデータに偏見や攻撃的コンテンツが含まれる場合、現在のモデルは文化的に繊細なユーモアをどの程度捉えることができるか？

主な発見

モデルが生成したミームは、人間のテストで70％が合成であると識別されず、実際のミームと区別がつかないことが確認された（既知の画像の場合）。
アテンションベースのモデルバージョンは、GloVe平均モデル（2.28）と比較して低いパープレキシティ（2.02）を達成しており、より優れた言語モデリング性能を示している。
パープレキシティは低かったが、人間による面白さ評価ではアテンションモデル（5.5/10）がGloVeモデル（6.9/10）より低く、流暢さと面白さのトレードオフが示された。
生成キャプションはしばしば独自のものであり、トレーニングデータに存在しない割合が16〜26％にのぼり、効果的な一般化が行われていることが示された。
ラベル条件づけはキャプション内容にほとんど影響を与えず、生成キャプションは主に画像依存的であり、ラベル依存的ではなかった。これは、トレーニングデータにおけるラベルのスパarsityと広範なカバレッジの欠如に起因した。
実際のミームは平均7.0/10の面白さスコアを記録しており、最高性能を示したモデルバージョン（GloVe平均）はこれに非常に近い6.9/10を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。