Skip to main content
QUICK REVIEW

[논문 리뷰] Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination

Hao Fei, Qian Liu|arXiv (Cornell University)|2023. 05. 20.
Multimodal Machine Learning Applications인용 수 20
한 줄 요약

이 논문은 테스트 시 이미지를 사용하지 않는 인퍼런스 타임 이미지-프리 비지도 다중모달 기계 번역(UMMT) 시스템을 제안하며, 시각적 및 언어적 장면 그래프(VSG/LSG)와 텍스트로부터 가짜 VSG를 생성하는 시각적 장면 환각 모듈을 이용해 텍스트에서 pseudo VSG를 생성하고, 테스트 시 짝지어진 이미지를 사용하지 않아도 Multi30K에서 BLEU를 크게 향상시킨다.

ABSTRACT

In this work, we investigate a more realistic unsupervised multimodal machine translation (UMMT) setup, inference-time image-free UMMT, where the model is trained with source-text image pairs, and tested with only source-text inputs. First, we represent the input images and texts with the visual and language scene graphs (SG), where such fine-grained vision-language features ensure a holistic understanding of the semantics. To enable pure-text input during inference, we devise a visual scene hallucination mechanism that dynamically generates pseudo visual SG from the given textual SG. Several SG-pivoting based learning objectives are introduced for unsupervised translation training. On the benchmark Multi30K data, our SG-based method outperforms the best-performing baseline by significant BLEU scores on the task and setup, helping yield translations with better completeness, relevance and fluency without relying on paired images. Further in-depth analyses reveal how our model advances in the task setting.

연구 동기 및 목표

  • 실제적인 추론 시간 이미지-프리 UMMT 시스템을 동기 부여하고 구축한다.
  • 정교한 장면 그래프(LSG/VSG)로 입력 텍스트와 이미지를 표현하여 전체적 근거를 강화한다.
  • 추론 중 텍스트에서 의사 시각 그래프를 생성하는 시각적 장면 환각 메커니즘을 개발한다.
  • SG-피봇 학습 목표를 도입하여 비지도 MT 모델을 학습시킨다.
  • Multi30K에서 기준선 대비 상당한 BLEU 향상을 입증하고 VL 정렬 및 번역 품질을 분석한다.

제안 방법

  • 사전 학습된 구문 분석기를 사용하여 원문 텍스트와 페어 이미지를 언어 장면 그래프(LSG)와 시각 장면 그래프(VSG)로 표현한다.
  • LSG와 VSG를 각각의 그래프 인코더로 인코딩하고 이를 번역을 위한 통합된 tgtside LSG로 융합한다.
  • 추론 중 LSG로부터 환각된 VSG를 구성하는 시각적 장면 환각(VSH) 모듈을 도입한다.
  • 교차-SG 시각-언어 정렬(대조 학습 및 교차 재구성) 및 SG-피봇 백번역(시각 동반 및 캡션 피봇)을 포함한 SG-피봇 학습을 적용한다.
  • 비지도 번역 품질을 향상시키기 위해 역번역(back-translation)과 캡션 기반 의사 병렬 데이터를 사용한다.
  • CMA, REC, VCB, CPB 및 VSH 손실로 단계적 스케줄로 학습한 뒤 공동으로 미세조정한다.

실험 결과

연구 질문

  • RQ1텍스트에서 타당한 시각적 장면을 환각하여 테스트 시 이미지 없이도 비지도 다중모달 MT를 효과적으로 수행할 수 있는가?
  • RQ2장면 그래프가 대략적인 영역 기반 방법보다 VL 피봇팅을 위한 더 전체적이고 세밀한 표현을 제공하는가?
  • RQ3SG 기반 교차 모달 정렬과 SG 피봇 백트랜스레이션이 추론 시간 이미지-프리 설정에서 번역 품질에 얼마나 기여하는가?

주요 결과

모델영→프 BLEU영←프 BLEU영→독 BLEU영←독 BLEU평균 BLEU
Ours50.645.532.033.640.4
- L_CMA49.244.330.932.639.3
- L_REC48.743.930.332.138.8
- L_VCB47.042.228.730.137.0
- L_CPB45.941.627.629.236.1
- L_CMA & L_REC47.242.529.230.937.5
- L_CPB & L_VCB44.640.026.327.734.7
  • SG-피봇 UMMT 방법은 이미지-프리 설정에서 Multi30K의 강력한 기준선 대비 상당한 BLEU 향상을 달성한다(최고 baselines 대비 평균 약 5 BLEU 증가).
  • LSG와 VSG를 모두 사용하면 번역 품질이 향상되고; SG를 제거하면 성능이 크게 감소한다.
  • 시각적 장면 환각(VSH)은 이미지 입력 없이도 경쟁력 있는 성능을 가능하게 하며, 전체 모델(Ours)이 SG가 없는 변형보다 우수하다.
  • 역번역 및 캡션 피봇 백번역이 향상에 가장 큰 기여를 하며, 가장 강력한 제거에서 약 4.3 BLEU 부스트가 관찰된다.
  • 사람 평가에서 SG 기반 모델이 더 높은 완전성 및 낮은 모호성을 보였고, CLIP 기반 관련성으로 측정된 VL 정렬이 더 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.