QUICK REVIEW

[논문 리뷰] Diverse and Controllable Image Captioning with Part-of-Speech Guidance

Aditya Deshpande, Jyoti Aneja|arXiv (Cornell University)|2018. 05. 31.

Multimodal Machine Learning Applications참고 문헌 27인용 수 18

한 줄 요약

이 논문은 품사 태깅(POS tagging)을 조건화 메커니즘으로 사용하여 다양하고 제어 가능한 이미지 캡션 생성 방법을 제안한다. POS 태그를 해석 가능한 언어적 사전 지식으로 활용함으로써, 모델은 더 다양한 캡션을 더 자연스럽고 정확하게 생성하며, 기존의 기준 모델들보다 다양성과 표준 캡션 측정 지표에서 모두 뛰어난 성능을 보인다.

ABSTRACT

Automatically describing an image is an important capability for virtual assistants. Significant progress has been achieved in recent years on this task of image captioning. However, classical prediction techniques based on maximum likelihood trained LSTM nets don't embrace the inherent ambiguity of image captioning. To address this concern, recent variational auto-encoder and generative adversarial network based methods produce a set of captions by sampling from an abstract latent space. But, this latent space has limited interpretability and therefore, a control mechanism for captioning remains an open problem. This paper proposes a captioning technique conditioned on part-of-speech. Our method provides human interpretable control in form of part-of-speech. Importantly, part-of-speech is a language prior, and conditioning on it provides: (i) more diversity as evaluated by counting n-grams and the novel sentences generated, (ii) achieves high accuracy for the diverse captions on standard captioning metrics.

연구 동기 및 목표

잠재 공간 샘플링 기반 기존 이미지 캡션 모델의 해석 불가능성과 제어 불가능성 문제를 해결하기 위해.
유창성이나 정확도를 희생시키지 않고 캡션의 다양성을 향상시키기 위해.
품사 태그를 조건화 신호로 사용하여 인간이 이해할 수 있는 제어 메커니즘을 도입하기 위해.
POS 조건화가 다양성과 표준 측정 지표에서의 성능 향상에 기여하는지 평가하기 위해.
흑상자 잠재 변수 모델에 대한 투명하고 제어 가능한 대안을 제공하기 위해.

제안 방법

모델은 캡션 생성 과정을 품사 태그에 조건화하여 디코딩 중 제어 신호로 사용한다.
어텐션을 갖춘 시퀀스-투-시퀀스 아키텍처를 사용하며, 품사 태그는 임베딩되어 디코더의 은닉 상태에 통합된다.
학습 목표는 최대우도와 함께, 생성된 캡션에서 품사 일관성을 유지하기 위한 정규화 항을 포함한다.
이미지 특징에서 별도의 품사 태거를 사용해 품사 태그를 예측함으로써, 이미지와 언어의 공동 모델링이 가능해진다.
원-샷 제어를 가능하게 하여, 예를 들어 '명사-동사-명사'와 같은 원하는 품사 패턴을 지정해 다양한 캡션 생성이 가능하다.
이미지-캡션 쌍과 함께 POS 태깅 정보가 포함된 데이터로 엔드 투 엔드로 훈련되어, 언어적 구조에 대한 분리된 제어가 가능해진다.

실험 결과

연구 질문

RQ1품사 태깅이 이미지 캡션 생성에 효과적이고 해석 가능한 제어 메커니즘으로 기능할 수 있는가?
RQ2표준 자동회귀 모델이나 잠재 변수 모델과 비교해, POS 유도 캡션 생성이 다양성을 향상시키는가?
RQ3POS 제약 조건 하에서 생성된 캡션의 유창성과 정확도를 유지할 수 있는가?
RQ4POS 조건화가 BLEU, ROUGE, CIDEr와 같은 표준 캡션 측정 지표에 어떤 영향을 미치는가?
RQ5사용자가 품사 패턴을 통해 생성된 캡션의 언어적 구조를 얼마나 정밀하게 제어할 수 있는가?

주요 결과

제안된 방법은 n-그램 다양성과 새로운 문장 생성 증가로 측정된 바에 따라 더 높은 캡션 다양성을 달성한다.
POS 유도 캡션은 BLEU, ROUGE, CIDEr와 같은 표준 측정 지표에서 향상된 성능을 보이며, 더 자연스럽고 관련성이 높은 캡션임을 시사한다.
정확도를 희생시키지 않고도 더 다양한 캡션을 생성함으로써, 다양성과 품질 사이의 균형을 잘 유지함을 입증한다.
품사 태그에 조건화함으로써 해석 가능하고 제어 가능한 캡션 생성이 가능해지며, 사용자가 언어적 구조를 지정할 수 있다.
다양성과 측정 지표 점수 모두에서 기준 변분 및 적대적 캡션 모델보다 성능이 뛰어나다.
언어적 사전 지식으로서의 품사 태그 사용은 시각적 콘텐츠에서 언어적 제어를 효과적으로 분리시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.