QUICK REVIEW

[논문 리뷰] CNN+CNN: Convolutional Decoders for Image Captioning

Qingzhong Wang, Antoni B. Chan|arXiv (Cornell University)|2018. 05. 23.

Multimodal Machine Learning Applications참고 문헌 34인용 수 70

한 줄 요약

본 논문은 RNN 디코더를 합성곱 디코더로 대체한 CNN+CNN 프레임워크를 이미지 캡션 생성에 제안하여, BLEU/METEOR/CIDEr 점수에서 경쟁적이며, 특히 계층적 어텐션에서 더 빠른 학습을 달성합니다.

ABSTRACT

Image captioning is a challenging task that combines the field of computer vision and natural language processing. A variety of approaches have been proposed to achieve the goal of automatically describing an image, and recurrent neural network (RNN) or long-short term memory (LSTM) based models dominate this field. However, RNNs or LSTMs cannot be calculated in parallel and ignore the underlying hierarchical structure of a sentence. In this paper, we propose a framework that only employs convolutional neural networks (CNNs) to generate captions. Owing to parallel computing, our basic model is around 3 times faster than NIC (an LSTM-based model) during training time, while also providing better results. We conduct extensive experiments on MSCOCO and investigate the influence of the model width and depth. Compared with LSTM-based models that apply similar attention mechanisms, our proposed models achieves comparable scores of BLEU-1,2,3,4 and METEOR, and higher scores of CIDEr. We also test our model on the paragraph annotation dataset, and get higher CIDEr score compared with hierarchical LSTMs

연구 동기 및 목표

병렬 계산을 가능하게 하기 위해 이미지 캡션 생성을 위한 RNN 기반 디코더를 CNN 기반 디코더로 교체하는 동기를 제시한다.
시각 CNN에서 언어 CNN으로 주의(attention) 메커니즘을 연결하는 CNN+CNN 아키텍처를 제안한다.
이미지 영역과 언어 개념 간 정렬을 개선하기 위한 계층적 어텐션 모듈을 도입한다.
언어 CNN의 너비(width), 깊이(depth), 어텐션이 캡션 품질에 미치는 영향을 체계적으로 연구한다.
MSCOCO, Flickr30k 및 문단 주석 데이터셋(PAD)에서의 성능을 시연하고 최첨단 방법과 비교한다.

제안 방법

완전 연결 계층 없이 VGG-16을 기반으로 한 비전 모듈을 사용하여 이미지 특징을 추출한다.
맥락을 모델링하기 위해 인과적이며 게이트된 합성곱 계층(GLU)을 사용하는 언어 CNN으로 문장을 표현한다.
이미지 특징과 언어 개념 사이의 점곱(attention) 어텐션을 통해 주의 특징(attended features)을 형성하는 어텐션 모듈을 도입한다.
주어진 주의 특징과 언어 개념을 융합해 소프트맥스 출력으로 다음 단어를 예측하는 예측 모듈을 사용한다.
더 나은 가이던스를 위한 계층적 어텐션을 선택적으로 적용하여 낮은 수준의 언어 CNN 레벨에서 높은 수준으로 어텐션 맵을 전달한다.
교차 엔트로피 손실과 L2 정규화를 사용해 학습하며, 추론은 탐욕적 단어 선택을 이용한 피드포워드이다.

실험 결과

연구 질문

RQ1CNN 기반 디코더가 이미지 캡션 생성 성능에서 RNN/LSTM 기반 디코더와 대등하거나 이를 능가할 수 있는가?
RQ2계층적 어텐션이 시각 영역과 언어 개념 간 정렬을 개선하여 캡션 품질을 높이는가?
RQ3언어 CNN의 너비(width), 깊이(depth), 커널 크기가 캡션 생성 성능 및 필요한 수용 영역(receptive field)에 어떤 영향을 미치는가?
RQ4NIC보다 학습 속도가 빠르게 학습되면서도 경쟁력 있는 지표를 유지하는가?
RQ5문단 수준 캡션 생성이 문장 수준 데이터셋과 비교해 어떤 성능을 보이는가?

주요 결과

모델	B-1	B-2	B-3	B-4	M	R	C
DeepVS	0.625	0.450	0.321	0.230	0.195	-	0.660
m-RNN	0.670	0.490	0.350	0.250	-	-	-
NIC	0.666	0.461	0.329	0.246	-	-	-
LRCN	0.697	0.519	0.380	0.278	0.229	0.508	0.837
Hard-ATT	0.718	0.504	0.357	0.250	0.230	-	-
Soft-ATT	0.707	0.492	0.344	0.243	0.239	-	-
Ours (w/o hier-att)	0.688	0.513	0.370	0.265	0.234	0.507	0.839
Ours (w/ hier-att)	0.685	0.511	0.369	0.267	0.234	0.510	0.844

계층적 어텐션의 유무에 관계없이 CNN+CNN은 MSCOCO 및 Flickr30k에서 경쟁력 있는 BLEU, METEOR, ROUGE-L, CIDEr 점수를 달성하며, hier-att를 사용하면 CIDEr가 향상된다.
학습 속도가 향상된다: 계층적 어텐션 없이 6-레이어 CNN은 동일 하드웨어에서 NIC보다 약 3배 빠르게 학습한다.
계층적 어텐션은 비계층적 모델과 비교해 일관되게 점수를 향상시키며, 특히 MSCOCO 및 Flickr30k에서 CIDEr와 METEOR가 향상된다.
커널 너비(width)와 깊이(depth) 실험은 MSCOCO/Flickr30k에서 커널 크기 3인 6-레이어 네트워크와 hier-att가 효과적임을 보여주며, 커널 크기를 늘리면 비계층적 설정에 이점이 있다.
PAD 데이터셋에서 더 긴 캡션은 커널 너비 조정의 이점을 보이며, 커널 크기 7에서 CIDEr 이득이 있다.
시각적 주의 맵은 예측 단어에 해당하는 이미지 영역에 의미 있는 초점을 보이고 다중 객체 장면에서의 트레이드오프를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.