[논문 리뷰] CNN+CNN: Convolutional Decoders for Image Captioning
본 논문은 RNN 디코더를 합성곱 디코더로 대체한 CNN+CNN 프레임워크를 이미지 캡션 생성에 제안하여, BLEU/METEOR/CIDEr 점수에서 경쟁적이며, 특히 계층적 어텐션에서 더 빠른 학습을 달성합니다.
Image captioning is a challenging task that combines the field of computer vision and natural language processing. A variety of approaches have been proposed to achieve the goal of automatically describing an image, and recurrent neural network (RNN) or long-short term memory (LSTM) based models dominate this field. However, RNNs or LSTMs cannot be calculated in parallel and ignore the underlying hierarchical structure of a sentence. In this paper, we propose a framework that only employs convolutional neural networks (CNNs) to generate captions. Owing to parallel computing, our basic model is around 3 times faster than NIC (an LSTM-based model) during training time, while also providing better results. We conduct extensive experiments on MSCOCO and investigate the influence of the model width and depth. Compared with LSTM-based models that apply similar attention mechanisms, our proposed models achieves comparable scores of BLEU-1,2,3,4 and METEOR, and higher scores of CIDEr. We also test our model on the paragraph annotation dataset, and get higher CIDEr score compared with hierarchical LSTMs
연구 동기 및 목표
- 병렬 계산을 가능하게 하기 위해 이미지 캡션 생성을 위한 RNN 기반 디코더를 CNN 기반 디코더로 교체하는 동기를 제시한다.
- 시각 CNN에서 언어 CNN으로 주의(attention) 메커니즘을 연결하는 CNN+CNN 아키텍처를 제안한다.
- 이미지 영역과 언어 개념 간 정렬을 개선하기 위한 계층적 어텐션 모듈을 도입한다.
- 언어 CNN의 너비(width), 깊이(depth), 어텐션이 캡션 품질에 미치는 영향을 체계적으로 연구한다.
- MSCOCO, Flickr30k 및 문단 주석 데이터셋(PAD)에서의 성능을 시연하고 최첨단 방법과 비교한다.
제안 방법
- 완전 연결 계층 없이 VGG-16을 기반으로 한 비전 모듈을 사용하여 이미지 특징을 추출한다.
- 맥락을 모델링하기 위해 인과적이며 게이트된 합성곱 계층(GLU)을 사용하는 언어 CNN으로 문장을 표현한다.
- 이미지 특징과 언어 개념 사이의 점곱(attention) 어텐션을 통해 주의 특징(attended features)을 형성하는 어텐션 모듈을 도입한다.
- 주어진 주의 특징과 언어 개념을 융합해 소프트맥스 출력으로 다음 단어를 예측하는 예측 모듈을 사용한다.
- 더 나은 가이던스를 위한 계층적 어텐션을 선택적으로 적용하여 낮은 수준의 언어 CNN 레벨에서 높은 수준으로 어텐션 맵을 전달한다.
- 교차 엔트로피 손실과 L2 정규화를 사용해 학습하며, 추론은 탐욕적 단어 선택을 이용한 피드포워드이다.
실험 결과
연구 질문
- RQ1CNN 기반 디코더가 이미지 캡션 생성 성능에서 RNN/LSTM 기반 디코더와 대등하거나 이를 능가할 수 있는가?
- RQ2계층적 어텐션이 시각 영역과 언어 개념 간 정렬을 개선하여 캡션 품질을 높이는가?
- RQ3언어 CNN의 너비(width), 깊이(depth), 커널 크기가 캡션 생성 성능 및 필요한 수용 영역(receptive field)에 어떤 영향을 미치는가?
- RQ4NIC보다 학습 속도가 빠르게 학습되면서도 경쟁력 있는 지표를 유지하는가?
- RQ5문단 수준 캡션 생성이 문장 수준 데이터셋과 비교해 어떤 성능을 보이는가?
주요 결과
| 모델 | B-1 | B-2 | B-3 | B-4 | M | R | C |
|---|---|---|---|---|---|---|---|
| DeepVS | 0.625 | 0.450 | 0.321 | 0.230 | 0.195 | - | 0.660 |
| m-RNN | 0.670 | 0.490 | 0.350 | 0.250 | - | - | - |
| NIC | 0.666 | 0.461 | 0.329 | 0.246 | - | - | - |
| LRCN | 0.697 | 0.519 | 0.380 | 0.278 | 0.229 | 0.508 | 0.837 |
| Hard-ATT | 0.718 | 0.504 | 0.357 | 0.250 | 0.230 | - | - |
| Soft-ATT | 0.707 | 0.492 | 0.344 | 0.243 | 0.239 | - | - |
| Ours (w/o hier-att) | 0.688 | 0.513 | 0.370 | 0.265 | 0.234 | 0.507 | 0.839 |
| Ours (w/ hier-att) | 0.685 | 0.511 | 0.369 | 0.267 | 0.234 | 0.510 | 0.844 |
- 계층적 어텐션의 유무에 관계없이 CNN+CNN은 MSCOCO 및 Flickr30k에서 경쟁력 있는 BLEU, METEOR, ROUGE-L, CIDEr 점수를 달성하며, hier-att를 사용하면 CIDEr가 향상된다.
- 학습 속도가 향상된다: 계층적 어텐션 없이 6-레이어 CNN은 동일 하드웨어에서 NIC보다 약 3배 빠르게 학습한다.
- 계층적 어텐션은 비계층적 모델과 비교해 일관되게 점수를 향상시키며, 특히 MSCOCO 및 Flickr30k에서 CIDEr와 METEOR가 향상된다.
- 커널 너비(width)와 깊이(depth) 실험은 MSCOCO/Flickr30k에서 커널 크기 3인 6-레이어 네트워크와 hier-att가 효과적임을 보여주며, 커널 크기를 늘리면 비계층적 설정에 이점이 있다.
- PAD 데이터셋에서 더 긴 캡션은 커널 너비 조정의 이점을 보이며, 커널 크기 7에서 CIDEr 이득이 있다.
- 시각적 주의 맵은 예측 단어에 해당하는 이미지 영역에 의미 있는 초점을 보이고 다중 객체 장면에서의 트레이드오프를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.