QUICK REVIEW

[논문 리뷰] Discriminability objective for training descriptive captions

Ruotian Luo, Brian Price|arXiv (Cornell University)|2018. 03. 12.

Multimodal Machine Learning Applications참고 문헌 48인용 수 72

한 줄 요약

논문은 캡션 학습에 사전 학습된 이미지-캡션 검색 모델을 기반으로 한 식별 가능성(discriminability) 손실을 추가합니다. 이는 더 구별 가능한 캡션을 생성하고 표준 캡션 지표도 향상시킬 수 있습니다.

ABSTRACT

One property that remains lacking in image captions generated by contemporary methods is discriminability: being able to tell two images apart given the caption for one of them. We propose a way to improve this aspect of caption generation. By incorporating into the captioning training objective a loss component directly related to ability (by a machine) to disambiguate image/caption matches, we obtain systems that produce much more discriminative caption, according to human evaluation. Remarkably, our approach leads to improvement in other aspects of generated captions, reflected by a battery of standard scores such as BLEU, SPICE etc. Our approach is modular and can be applied to a variety of model/loss combinations commonly proposed for image captioning.

연구 동기 및 목표

생성된 캡션의 구별 가능성 부족 문제 해결.
검색 모델을 활용하여 이미지-캡션 매치 가능성을 평가하는 구별 가능성 손실 제안.
구별 가능성 손실을 기존 캡션 학습 프레임워크에 통합.
구별 가능성 보강 학습이 구별 능력과 표준 캡션 지표를 모두 향상시킴을 보인다.

제안 방법

사전 학습된 이미지-캡션 임베딩 모델을 사용하여 공유 공간에서 유사도 점수 s(I,c)를 계산합니다.
정확한 이미지-캡션 쌍이 음수보다 마진 α만큼 높은 점수를 받도록 하는 대조 손실 L_CON을 정의합니다.
캡션 생성기로부터 샘플링된 캡션에 대한 기대값으로 구별 가능성 손실을 정의합니다: 최소화 E[L_CON(c_hat,I)].
전통적 목표(MLE 또는 CIDEr)와 구별 가능성 항을 결합한 보상을 최대화하도록 강화 학습(REINFORCE)으로 FC 및 ATTN 캡션 생성기를 학습합니다.
선택적으로 CIDEr와 구별 가능성을 보상으로 결합합니다: R = CIDEr(c_hat) − λ L_CON(c_hat,I).
기저선이 탐욕적 디코딩 출력인 자기 비판적 학습 스킴을 제공합니다.

실험 결과

연구 질문

RQ1구별 가능성에 초점을 둔 학습 목표가 캡션을 사용하여 올바른 이미지를 방해 요소로부터 구분하는 능력을 향상시킬 수 있는가?
RQ2학습에 구별 가능성을 도입하는 것이 BLEU, METEOR, ROUGE, CIDEr, SPICE 등 표준 캡션 지표에 영향을 미치는가?
RQ3구별 가능성 목표가 서로 다른 캡션 아키텍처(F C와 ATTN) 및 학습 방식(MLE/CIDEr)에서 효과적인가?
RQ4생성된 캡션의 구별 가능성과 유창성에 대한 구별 가능성 가중치 λ의 영향은 무엇인가?
RQ5제안된 목표를 사용할 때 인간 판단이 자동 구별 가능성 개선과 일치하는가?

주요 결과

구별 가능성 학습은 검색 모델에 더 구별되게 만드는 캡션을 산출합니다(타깃 대 디스트랙터 평가에서 더 높은 Acc).
구별 가능성 도입은 캡션-이미지 매치를 판단할 때 인간의 구별 정확도를 향상시킵니다.
적당한 λ 값에서 구별 가능성 추가가 표준 캡션 지표(BLEU, METEOR, ROUGE, CIDEr, SPICE)를 향상시킬 수 있습니다.
ATTN+CIDER+DISC 구성은 자동 지표와 구별 가능성 테스트에서 종종 가장 강한 전반적 성능을 보입니다.
더 높은 λ는 구별 가능성을 높이지만 유창성이나 다른 지표를 저하시킬 수 있으며, 실험에서 최적 균형은 λ ≈ 1 근처입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.