Skip to main content
QUICK REVIEW

[논문 리뷰] Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects

Ting Yao, Yingwei Pan|arXiv (Cornell University)|2017. 08. 17.
Multimodal Machine Learning Applications참고 문헌 28인용 수 33
한 줄 요약

이 논문은 훈련 중에 볼 수 없었던 새로운 객체를 기술할 수 있도록, CNN-RNN 아키텍처에 복사 기반 메커니즘을 통합한 새로운 이미지 캡셔닝 프레임워크인 LSTM-C를 제안한다. 외부 데이터셋에서 사전 훈련된 객체 검출기의 도움을 받아 LSTM-C는 직접적으로 객체 이름을 생성된 캡셔닝에 복사함으로써, MSCOCO와 ImageNet에서 최신 기술 수준의 성능을 달성하며, 새로운 객체 캡셔닝에서 정확도가 17.8% 향상되었다.

ABSTRACT

Image captioning often requires a large set of training image-sentence pairs. In practice, however, acquiring sufficient training pairs is always expensive, making the recent captioning models limited in their ability to describe objects outside of training corpora (i.e., novel objects). In this paper, we present Long Short-Term Memory with Copying Mechanism (LSTM-C) --- a new architecture that incorporates copying into the Convolutional Neural Networks (CNN) plus Recurrent Neural Networks (RNN) image captioning framework, for describing novel objects in captions. Specifically, freely available object recognition datasets are leveraged to develop classifiers for novel objects. Our LSTM-C then nicely integrates the standard word-by-word sentence generation by a decoder RNN with copying mechanism which may instead select words from novel objects at proper places in the output sentence. Extensive experiments are conducted on both MSCOCO image captioning and ImageNet datasets, demonstrating the ability of our proposed LSTM-C architecture to describe novel objects. Furthermore, superior results are reported when compared to state-of-the-art deep models.

연구 동기 및 목표

  • 기존의 이미지 캡셔닝 모델이 훈련 데이터에 포함되지 않은 객체(즉, 새로운 객체)를 기술하는 데에 한계가 있다는 문제를 해결하기 위해.
  • 일반적으로 이용 가능한 객체 인식 데이터셋의 지식을 캡셔닝 파이프라인에 통합하여, 아직 보지 못한 객체에 대한 일반화 능력을 향상시키기 위해.
  • LSTM를 통한 시퀀스 생성과 객체 이름 복사 기반 메커니즘을 결합한 엔드 투 엔드로 훈련 가능한 프레임워크를 개발하기 위해.
  • 복사 기반 메커니즘이 새로운 객체 캡셔닝 성능을 크게 향상시키며, 특히 외부 텍스트 데이터와 조합되었을 때 그 효과가 두드러진다는 것을 입증하기 위해.

제안 방법

  • 프레임워크는 입력 이미지의 시각적 특징을 추출하기 위해 CNN을 사용하며, 이를 후속으로 LSTM 디코더에 입력하여 문장을 생성한다.
  • 객체 검출은 외부 데이터셋(예: ImageNet)에서 사전 훈련된 모델을 사용하여 수행되며, 이미지 내 후보 객체 목록을 생성한다.
  • LSTM 디코더의 상단에 복사 레이어를 도입하여, 검출된 객체의 이름을 출력 문장에 직접 복사할 수 있도록 한다.
  • 복사 기반 메커니즘은 어휘와 검출된 객체에 대해 확률 분포를 계산하는 소프트 어텐션 메커니즘을 통해 통합되며, 학습 가능한 트레이드오프 파라미터 λ를 포함한다.
  • 모델는 교차 엔트로피 손실을 사용하여 엔드 투 엔드로 훈련되며, 복사 기반 메커니즘은 검출된 객체에서 단어를 유연하게 라우팅하는 기반의 미분 가능한 방식으로 구현된다.
  • 외부의 쌍방향 텍스트 데이터(예: BNC 및 위키백과)를 사용하여 단어 임베딩을 사전 훈련함으로써 일반화 능력과 성능을 향상시킨다.
Figure 1: An example of object recognition and image captioning. The input is an image, while the output is the detected objects and a natural sentence, respectively. (upper row: the detected objects in the image; middle row: the sentence generated by LRCN [ 4 ] image captioning approach; bottom row
Figure 1: An example of object recognition and image captioning. The input is an image, while the output is the detected objects and a natural sentence, respectively. (upper row: the detected objects in the image; middle row: the sentence generated by LRCN [ 4 ] image captioning approach; bottom row

실험 결과

연구 질문

  • RQ1복사 기반 메커니즘이 훈련 코퍼스에 포함되지 않은 새로운 객체를 기술하는 데 있어 이미지 캡셔닝 모델의 성능 향상에 기여하는가?
  • RQ2외부 객체 검출 모델을 통합함으로써 캡셔닝 모델의 아직 보지 못한 객체에 대한 일반화 능력은 어떻게 향상되는가?
  • RQ3캡셔닝 과정에서 어휘에서 단어를 생성하는 것과 검출된 객체에서 단어를 복사하는 것 사이의 최적의 트레이드오프는 무엇인가?
  • RQ4외부의 쌍방향 텍스트 데이터 사용이 새로운 객체 캡셔닝 성능 향상에 기여하는가?
  • RQ5특히 일반적인 객체와 시각적으로 유사한 객체 카테고리에 대해서도 복사 기반 메커니즘의 성능은 얼마나 견고한가?

주요 결과

  • MSCOCO 데이터셋에서 LSTM-C는 새로운 객체 정확도 72.08%와 F1 스코어 16.39%를 기록했으며, 베이스라인 모델인 NOC보다 각각 1.4%와 0.76% 높은 성능을 보였다.
  • ImageNet 데이터셋에서 LSTM-C는 NOC 베이스라인 대비 정확도가 17.8% 상승하여 대규모 새로운 객체에 대한 강력한 일반화 능력을 입증했다.
  • 여덟 가지 새로운 객체 중 여섯 가지에 대해 가장 높은 F1 스코어를 기록했으며, λ ≈ 0.2일 때 최적의 균형이 확보되어 생성과 복사 사이의 최적 조합이 이루어짐을 보여주었다.
  • 외부 텍스트 데이터(BNC 및 위키백과)의 포함으로 성능이 추가로 향상되었으며, 원핫 + GloVe 임베딩을 사용할 경우 ImageNet에서 정확도가 31.11%에 도달했다.
  • 정성적 결과 분석에서 LSTM-C는 정확한 객체 이름(예: '버스'는 'hydrant'로 잘못 기술되는 것 대비)을 캡셔닝에 성공적으로 복사하여 의미적 정확도를 향상시켰다.
Figure 2: The overview of Long Short-Term Memory with Copying Mechanism (LSTM-C) for describing novel objects (better viewed in color). (a) $\mathcal{W}_{g}$ and $\mathcal{W}_{c}$ are the vocabularies on paired image-sentence dataset and unpaired object recognition dataset, respectively. (b) The ima
Figure 2: The overview of Long Short-Term Memory with Copying Mechanism (LSTM-C) for describing novel objects (better viewed in color). (a) $\mathcal{W}_{g}$ and $\mathcal{W}_{c}$ are the vocabularies on paired image-sentence dataset and unpaired object recognition dataset, respectively. (b) The ima

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.