QUICK REVIEW

[논문 리뷰] Dank Learning: Generating Memes Using Deep Neural Networks

Abel L. Peirson, E Meltem Tolunay|arXiv (Cornell University)|2018. 06. 08.

Multimodal Machine Learning Applications참고 문헌 14인용 수 37

한 줄 요약

이 논문은 사전에 튜닝된 Inception-v3 인코더와 주의 기반 LSTM 디코더를 사용하여 입력 이미지에서 유머러스하고 관련성이 높은 멤에 캡션을 생성하는 딥러닝 시스템을 제시한다. 모델은 인간 평가에서 실제 멤에와 구별하기 어려운 성능을 달성했으며, 생성된 멤에 중 70%가 인간 평가에서 합성된 것으로 식별되지 않았다.

ABSTRACT

We introduce a novel meme generation system, which given any image can produce a humorous and relevant caption. Furthermore, the system can be conditioned on not only an image but also a user-defined label relating to the meme template, giving a handle to the user on meme content. The system uses a pretrained Inception-v3 network to return an image embedding which is passed to an attention-based deep-layer LSTM model producing the caption - inspired by the widely recognised Show and Tell Model. We implement a modified beam search to encourage diversity in the captions. We evaluate the quality of our model using perplexity and human assessment on both the quality of memes generated and whether they can be differentiated from real ones. Our model produces original memes that cannot on the whole be differentiated from real ones.

연구 동기 및 목표

어떠한 입력 이미지에서라도 유머러스하고 맥락적으로 관련성이 높은 멤에 캡션을 생성할 수 있는 신경망 시스템을 개발하는 것.
멤에 템플릿과 관련된 사용자 정의 레이블에 기반한 캡션 생성의 영향을 탐색하는 것.
자동화된 지표(퍼플렉서티)와 인간 평가를 통한 유머감 및 진위성 평가를 통해 생성된 멤에의 품질을 평가하는 것.
AI로 생성된 멤에에서 다양하고 독창적이며 문화적으로 공감되는 유머를 생성하는 데 도전하는 것.
데이터 부족 상황에서 레이블 조건화와 주의 메커니즘의 한계를 조사하는 것.

제안 방법

입력 이미지에서 고정 길이의 이미지 임베딩을 추출하기 위해 사전 학습된 Inception-v3 네트워크를 사용한다.
이미지 임베딩에서 캡션을 생성하기 위해 주의 기반 장기 단기 기억(기억) 순환 신경망(LSTM)을 활용한다.
반복을 방지하고 캡션의 다양성을 향상시키기 위해 수정된 비트 서치 전략을 적용한다.
어휘 이해력과 언어 모델링 향상을 위해 사전 학습된 GloVe 단어 임베딩을 통합한다.
사용자 제공 레이블에 기반해 캡션 생성을 조건화하여 멤에 콘텐츠에 영향을 주지만, 레이블 부족으로 인해 성과가 제한적이다.
언어 모델링 지표로 퍼플렉서티를 사용하여 모델을 미세 조정하고, 인간 평가를 통한 유머감 및 구별 가능성 검증을 수행한다.

실험 결과

연구 질문

RQ1딥러닝 모델이 인간 평가에서 실제 멤에와 구별하기 어려운 멤에를 생성할 수 있는가?
RQ2사용자 정의 레이블에 기반한 캡션 생성 조건화가 생성된 멤에의 다양성과 관련성에 어떤 영향을 미치는가?
RQ3주의 메커니즘을 통합할 경우 생성된 멤에 캡션의 품질과 독창성은 어느 정도 향상되는가?
RQ4자동화된 지표인 퍼플렉서티는 멤에 생성에서 인간의 유머감 및 진위성 평가와 얼마나 관련이 있는가?
RQ5학습 데이터에 편향되거나 모욕적인 내용이 포함된 경우, 현재 모델이 문화적으로 섬세한 유머를 얼마나 잘 포착하는가?

주요 결과

모델이 생성한 멤에 중 70%는 인간 테스터가 본 이미지의 경우 합성된 것으로 식별되지 않아 실제 멤에와 유의미하게 구별되지 않았다.
주의 기반 모델 버전은 GloVe 평균 모델(2.28) 대비 낮은 퍼플렉서티(2.02)를 기록하여 더 나은 언어 모델링 성능을 보였다.
낮은 퍼플렉서티에도 불구하고 주의 모델은 인간의 유머 평가에서 GloVe 모델(6.9/10) 대비 낮은 점수(5.5/10)를 기록하여 유창성과 유머 사이의 상충 관계를 시사했다.
모델는 종종 독창적인 캡션을 생성했으며, 훈련 데이터에 존재하지 않은 캡션 비율이 16~26%로 나타나 효과적인 일반화 능력을 보였다.
레이블 조건화는 캡션 콘텐츠에 미치는 영향이 제한적이었는데, 이는 훈련 데이터에서 레이블의 희소성과 광범위한 커버리지로 인해 생성된 캡션의 대부분이 이미지 기반이지 레이블 기반으로 남아 있었기 때문이다.
실제 멤에의 평균 유머 점수는 10점 만점에 7.0점이었고, 최고 성능을 보인 모델 버전(GloVe 평균)은 이 기준에 매우 가까운 6.9/10점을 기록했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.