QUICK REVIEW

[논문 리뷰] Recurrent Topic-Transition GAN for Visual Paragraph Generation

Xiaodan Liang, Zhiting Hu|arXiv (Cornell University)|2017. 03. 21.

Multimodal Machine Learning Applications참고 문헌 31인용 수 77

한 줄 요약

RTT-GAN은 문단 생성기와 다중 레벨 판별기를 공동으로 학습하여 다양하고 의미적으로 일관된 시각적 문단을 생성하며, 단일 문장 자막만을 사용하는 반-지도 학습을 적용합니다.

ABSTRACT

A natural image usually conveys rich semantic content and can be viewed from different angles. Existing image description methods are largely restricted by small sets of biased visual paragraph annotations, and fail to cover rich underlying semantics. In this paper, we investigate a semi-supervised paragraph generative framework that is able to synthesize diverse and semantically coherent paragraph descriptions by reasoning over local semantic regions and exploiting linguistic knowledge. The proposed Recurrent Topic-Transition Generative Adversarial Network (RTT-GAN) builds an adversarial framework between a structured paragraph generator and multi-level paragraph discriminators. The paragraph generator generates sentences recurrently by incorporating region-based visual and language attention mechanisms at each step. The quality of generated paragraph sentences is assessed by multi-level adversarial discriminators from two aspects, namely, plausibility at sentence level and topic-transition coherence at paragraph level. The joint adversarial training of RTT-GAN drives the model to generate realistic paragraphs with smooth logical transition between sentence topics. Extensive quantitative experiments on image and video paragraph datasets demonstrate the effectiveness of our RTT-GAN in both supervised and semi-supervised settings. Qualitative results on telling diverse stories for an image also verify the interpretability of RTT-GAN.

연구 동기 및 목표

단일 문장 자막을 넘어 풍부하고 다양한 시각적 문단 생성을 동기화한다.
단락 코퍼스를 활용하여 긴 형식 설명을 안내하는 반-지도 프레임워크를 제안한다.
계층적 맥락에 조건화된 영역 기반 주의 생성기를 개발하여 일관된 다중 문장을 생성한다.
문장 수준 및 주제 전이 판별기를 도입하여 그럴듯함과 일관된 주제 전이를 강제한다.
감독 및 반-지도 설정에서 이미지 및 비디오 문단 데이터셋에 대한 효과를 입증한다.

제안 방법

Dense Captioning으로 감지된 의미 공간에 대한 영역 인식 시각 및 언어 주의력을 활용하여 문장을 재귀적으로 생성하는 생성기를 구축한다.
문단 RNN, 문장 RNN, 계층적 주의력을 갖춘 단어 RNN을 사용하여 다중 문장 문단을 생성한다.
공간적 시각 주의와 언어 주의력을 통해 각 문장에 대한 주제 벡터를 형성하고 로컬 영역 구문을 복사한다.
생성 가이드를 위한 Wasserstein GAN 목적을 가진 두 판별기 설정(문장 타당성 D^s와 주제 전이 일관성 D^r)을 채택한다.
감독 데이터에 대한 재구성 손실(언어 모델)과 SeqGAN 방식으로 이산 텍스트 샘플을 역전파하기 위한 몬테카를로 롤아웃 전략을 사용한다.
단일 문장 자막으로 감독되는 동안 긴 문단 구성 학습을 통해 반-지도 설정으로 확장한다.

실험 결과

연구 질문

RQ1RTT-GAN이 로컬 의미 영역에 대한 추론으로 이미지/비디오에 대해 다양하고 일관된 긴 문단을 생성할 수 있는가?
RQ2단일 문장 자막만 이용한 감독에서 반-지도 학습이 문단 생성을 개선하는가?
RQ3지역 기반 주의와 이중 판별기가 문단 품질에 미치는 영향은 이미지-문단 방법의 기본 방법과 비교해 어떤 차이가 있는가?
RQ4첫 문장을 조정하여 친화적 문단을 생성하면서도 일관성을 유지할 수 있는가?
RQ5모션 특징이 있는 비디오 문단 생성으로 이 접근법이 효과적으로 확장되는가?

주요 결과

Method	METEOR	CIDEr	BLEU-1	BLEU-2	BLEU-3	BLEU-4
RTT-GAN (Semi+)	18.39	20.36	42.06	25.35	14.92	9.21
RTT-GAN (Semi-)	14.08	13.07	39.22	22.50	13.34	7.75
RTT-GAN (Fully-)	17.12	16.87	41.99	24.86	14.89	9.03
RTT-GAN (Fully- w/o discriminator)	16.57	15.07	41.86	24.33	14.56	8.99
RTT-GAN (Semi- w/o discriminator)	12.68	12.77	37.20	20.51	12.08	6.91
Human	19.22	28.55	42.88	25.68	15.55	9.66

RTT-GAN은 전체 판별기를 포함할 때 이미지-문단 지표(METEOR, CIDEr, BLEU)에서 전체 지도 설정에서 baselines보다 우수하다.
반-지도 설정에서 RTT-GAN (Semi-)은 감독으로 단일 문장 자막만 사용하는 경우에도 경쟁력 있는 CIDEr 및 METEOR 점수를 달성한다.
적대적 판별기가 성능을 크게 향상시키며, 이를 제거하면 반-지도 설정에서 CIDEr가 최대 4.11% 감소한다.
지역 기반 주의 및 언어 주의력 구성요소는 비주요 주의 variante에 비해 지표를 크게 향상시킨다.
모델은 첫 문장을 바꿈으로써 개인화된 문단 생성을 지원하며 topics에 일관된 설명을 생성한다.
RTT-GAN은 비디오 문단으로도 효과적으로 확장되어 TACoS-MultiLevel에서 BLEU-4, METEOR, CIDEr가 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.