QUICK REVIEW

[논문 리뷰] Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination

Hao Fei, Qian Liu|arXiv (Cornell University)|2023. 05. 20.

Multimodal Machine Learning Applications인용 수 20

한 줄 요약

이 논문은 테스트 시 이미지를 사용하지 않는 인퍼런스 타임 이미지-프리 비지도 다중모달 기계 번역(UMMT) 시스템을 제안하며, 시각적 및 언어적 장면 그래프(VSG/LSG)와 텍스트로부터 가짜 VSG를 생성하는 시각적 장면 환각 모듈을 이용해 텍스트에서 pseudo VSG를 생성하고, 테스트 시 짝지어진 이미지를 사용하지 않아도 Multi30K에서 BLEU를 크게 향상시킨다.

ABSTRACT

In this work, we investigate a more realistic unsupervised multimodal machine translation (UMMT) setup, inference-time image-free UMMT, where the model is trained with source-text image pairs, and tested with only source-text inputs. First, we represent the input images and texts with the visual and language scene graphs (SG), where such fine-grained vision-language features ensure a holistic understanding of the semantics. To enable pure-text input during inference, we devise a visual scene hallucination mechanism that dynamically generates pseudo visual SG from the given textual SG. Several SG-pivoting based learning objectives are introduced for unsupervised translation training. On the benchmark Multi30K data, our SG-based method outperforms the best-performing baseline by significant BLEU scores on the task and setup, helping yield translations with better completeness, relevance and fluency without relying on paired images. Further in-depth analyses reveal how our model advances in the task setting.

연구 동기 및 목표

실제적인 추론 시간 이미지-프리 UMMT 시스템을 동기 부여하고 구축한다.
정교한 장면 그래프(LSG/VSG)로 입력 텍스트와 이미지를 표현하여 전체적 근거를 강화한다.
추론 중 텍스트에서 의사 시각 그래프를 생성하는 시각적 장면 환각 메커니즘을 개발한다.
SG-피봇 학습 목표를 도입하여 비지도 MT 모델을 학습시킨다.
Multi30K에서 기준선 대비 상당한 BLEU 향상을 입증하고 VL 정렬 및 번역 품질을 분석한다.

제안 방법

사전 학습된 구문 분석기를 사용하여 원문 텍스트와 페어 이미지를 언어 장면 그래프(LSG)와 시각 장면 그래프(VSG)로 표현한다.
LSG와 VSG를 각각의 그래프 인코더로 인코딩하고 이를 번역을 위한 통합된 tgtside LSG로 융합한다.
추론 중 LSG로부터 환각된 VSG를 구성하는 시각적 장면 환각(VSH) 모듈을 도입한다.
교차-SG 시각-언어 정렬(대조 학습 및 교차 재구성) 및 SG-피봇 백번역(시각 동반 및 캡션 피봇)을 포함한 SG-피봇 학습을 적용한다.
비지도 번역 품질을 향상시키기 위해 역번역(back-translation)과 캡션 기반 의사 병렬 데이터를 사용한다.
CMA, REC, VCB, CPB 및 VSH 손실로 단계적 스케줄로 학습한 뒤 공동으로 미세조정한다.

실험 결과

연구 질문

RQ1텍스트에서 타당한 시각적 장면을 환각하여 테스트 시 이미지 없이도 비지도 다중모달 MT를 효과적으로 수행할 수 있는가?
RQ2장면 그래프가 대략적인 영역 기반 방법보다 VL 피봇팅을 위한 더 전체적이고 세밀한 표현을 제공하는가?
RQ3SG 기반 교차 모달 정렬과 SG 피봇 백트랜스레이션이 추론 시간 이미지-프리 설정에서 번역 품질에 얼마나 기여하는가?

주요 결과

모델	영→프 BLEU	영←프 BLEU	영→독 BLEU	영←독 BLEU	평균 BLEU
Ours	50.6	45.5	32.0	33.6	40.4
- L_CMA	49.2	44.3	30.9	32.6	39.3
- L_REC	48.7	43.9	30.3	32.1	38.8
- L_VCB	47.0	42.2	28.7	30.1	37.0
- L_CPB	45.9	41.6	27.6	29.2	36.1
- L_CMA & L_REC	47.2	42.5	29.2	30.9	37.5
- L_CPB & L_VCB	44.6	40.0	26.3	27.7	34.7

SG-피봇 UMMT 방법은 이미지-프리 설정에서 Multi30K의 강력한 기준선 대비 상당한 BLEU 향상을 달성한다(최고 baselines 대비 평균 약 5 BLEU 증가).
LSG와 VSG를 모두 사용하면 번역 품질이 향상되고; SG를 제거하면 성능이 크게 감소한다.
시각적 장면 환각(VSH)은 이미지 입력 없이도 경쟁력 있는 성능을 가능하게 하며, 전체 모델(Ours)이 SG가 없는 변형보다 우수하다.
역번역 및 캡션 피봇 백번역이 향상에 가장 큰 기여를 하며, 가장 강력한 제거에서 약 4.3 BLEU 부스트가 관찰된다.
사람 평가에서 SG 기반 모델이 더 높은 완전성 및 낮은 모호성을 보였고, CLIP 기반 관련성으로 측정된 VL 정렬이 더 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.