QUICK REVIEW

[논문 리뷰] Show, Adapt and Tell: Adversarial Training of Cross-domain Image Captioner

Tseng-Hung Chen, Yuan-Hong Liao|arXiv (Cornell University)|2017. 05. 02.

Multimodal Machine Learning Applications참고 문헌 34인용 수 30

한 줄 요약

이 논문은 쌍화된 훈련 데이터 없이 소스 도메인(예: MSCOCO)에서 타겟 도메인(예: CUB-200)으로의 교차 도메인 이미지 캡션 생성을 위한 적대적 훈련 프레임워크를 제안한다. 이는 사전 훈련된 캡셔너를 타겟 도메인에 적응시키며, 정책 그래เดียน트 훈련을 통해 도메인 및 다중모달 두 개의 크리틱을 도입하여 캡셔너를 이끌고, 추론 시 크리틱 기반 계획법을 통해 품질을 추가로 향상시킨다. 이로 인해 CUB-200에서 CIDEr-D 점수는 21.8% 향상되었고, 계획법을 적용하면 4.5% 향상되었다.

ABSTRACT

Impressive image captioning results are achieved in domains with plenty of training image and sentence pairs (e.g., MSCOCO). However, transferring to a target domain with significant domain shifts but no paired training data (referred to as cross-domain image captioning) remains largely unexplored. We propose a novel adversarial training procedure to leverage unpaired data in the target domain. Two critic networks are introduced to guide the captioner, namely domain critic and multi-modal critic. The domain critic assesses whether the generated sentences are indistinguishable from sentences in the target domain. The multi-modal critic assesses whether an image and its generated sentence are a valid pair. During training, the critics and captioner act as adversaries -- captioner aims to generate indistinguishable sentences, whereas critics aim at distinguishing them. The assessment improves the captioner through policy gradient updates. During inference, we further propose a novel critic-based planning method to select high-quality sentences without additional supervision (e.g., tags). To evaluate, we use MSCOCO as the source domain and four other datasets (CUB-200-2011, Oxford-102, TGIF, and Flickr30k) as the target domains. Our method consistently performs well on all datasets. In particular, on CUB-200-2011, we achieve 21.8% CIDEr-D improvement after adaptation. Utilizing critics during inference further gives another 4.5% boost.

연구 동기 및 목표

쌍화된 훈련 데이터 없이 도메인 간 큰 이질성이 존재하는 타겟 도메인으로 이미지 캡셔너를 적응시키는 데 도전하는 것.
쌍화된 이미지 및 문장 데이터만을 사용하여 소스 도메인(예: MSCOCO)에서 다양한 타겟 도메인으로의 제로샷 적응을 가능하게 하는 것.
추가적인 감독 신호 없이 훈련 및 추론 시 적대적 크리틱을 활용하여 캡션 품질을 향상시키는 것.
추론 시점에 크리틱 피드백을 통합함으로써 생성 품질을 향상시키는 크리틱 기반 계획 기법을 개발하는 것.

제안 방법

도메인 크리틱(타겟 도메인 문장의 스타일 유사도 평가)과 다중모달 크리틱(이미지-캡션 쌍의 타당성 검증)을 갖춘 이중 크리틱 적대적 프레임워크를 도입.
정책 그래디언트 업데이트를 위해 생성된 캡션의 누적 보상을 몬테카를로 롤아웃을 통해 추정함으로써 캡셔너의 엔드 투 엔드 훈련을 가능하게 한다.
캡셔너를 타겟 도메인 문장과 구별할 수 없도록(도메인 크리틱에 의해), 그리고 유효한 이미지-캡션 쌍이 되도록(다중모달 크리틱에 의해) 훈련한다.
크리틱 피드백에 기반해 정책 그래디언트 최적화를 적용하여 캡셔너의 파라미터를 업데이트함으로써 타겟 도메인 분포와의 일치도를 향상시킨다.
추론 시점에 정책 네트워크의 확률뿐만 아니라 크리틱의 신뢰도를 고려해 단어를 선택하는 크리틱 기반 계획 방법을 제안하며, 특히 불확실성이 높을 경우에 유용하다.
정책 네트워크의 최상위 확률이 두 번째로 높은 확률에 가까워질 경우 임계값 기반 메커니즘을 통해 탐욕적 선택에서 크리틱 기반 결정으로 전환함으로써 오류를 감소시킨다.

실험 결과

연구 질문

RQ1쌍화된 훈련 데이터 없이 이중 크리틱을 활용한 적대적 훈련이 소스 도메인 캡셔너를 타겟 도메인으로 효과적으로 적응시키는가?
RQ2도메인 크리틱과 다중모달 크리틱의 통합이 교차 도메인 환경에서 캡션 품질을 어떻게 향상시키는가?
RQ3추론 시 크리틱 기반 계획법을 통해 추가적인 감독 또는 태그 없이도 캡션 품질을 더욱 향상시킬 수 있는가?
RQ4교차 도메인 적응에서 도메인 크리틱과 다중모달 크리틱의 상대적 기여도는 어떠한가?
RQ5이 방법은 큰 도메인 이질성이 존재하는 다양한 타겟 도메인으로도 일반화되는가?

주요 결과

CUB-200-2011 데이터셋에서, 소스 도메인 사전 훈련 모델에 비해 적응 후 CIDEr-D 점수에서 21.8% 향상되었다.
추론 시 크리틱 기반 계획법을 통합함으로써 CUB-200에서 CIDEr-D 점수는 추가로 4.5% 향상되었으며, 이는 추론 중 크리틱 피드백의 가치를 입증한다.
제거 실험 결과, 도메인 크리틱과 다중모달 크리틱 모두 필수적임을 확인하였으며, 단일 크리틱만 사용할 경우 성능이 열등하다.
정규적인 도메인 이질성이 존재하는 네 개의 타겟 도메인(TGIF, Flickr30k 포함)에서도 일관되게 성능 향상을 보였다.
특히 CUB-200와 Oxford-102와 같은 고도의 도메인 이질성이 존재하는 도메인에서, 탐욕적 및 빔 서치 전략보다 크리틱 기반 계획법이 불확실성에 기인한 오류를 줄이며 뛰어난 성능을 보였다.
역방향 적응(Flickr30k → MSCOCO)에서도 강력한 성능을 기록하여, 다양한 도메인 간의 강인성과 일반화 능력을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.