[论文解读] Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination
论文提出了一种在推理时无需图像的无监督多模态机器翻译(UMMT)系统,该系统使用视觉和语言场景图(VSG/LSG)以及一个视觉场景幻象模块从文本生成伪VSG,在测试时不使用配对图像,在Multi30K上实现了BLEU显著提升。
In this work, we investigate a more realistic unsupervised multimodal machine translation (UMMT) setup, inference-time image-free UMMT, where the model is trained with source-text image pairs, and tested with only source-text inputs. First, we represent the input images and texts with the visual and language scene graphs (SG), where such fine-grained vision-language features ensure a holistic understanding of the semantics. To enable pure-text input during inference, we devise a visual scene hallucination mechanism that dynamically generates pseudo visual SG from the given textual SG. Several SG-pivoting based learning objectives are introduced for unsupervised translation training. On the benchmark Multi30K data, our SG-based method outperforms the best-performing baseline by significant BLEU scores on the task and setup, helping yield translations with better completeness, relevance and fluency without relying on paired images. Further in-depth analyses reveal how our model advances in the task setting.
研究动机与目标
- 激发并构建一个现实可行的推理时无图像的无监督多模态翻译(UMMT)系统。
- 使用细粒度的场景图(LSG/VSG)来表示输入文本和图像,以实现整体的语境绑定。
- 开发一个视觉场景幻象机制,在推理阶段从文本生成伪视觉场景图。
- 引入 SG-pivoting 学习目标以训练无监督翻译模型。
- 展示相比基线在 Multi30K 上显著的 BLEU 增益,并分析视觉-语言对齐与翻译质量。
提出的方法
- 使用预训练的分析器将源文本及其配对图像表示为语言场景图和视觉场景图(LSG 与 VSG)。
- 用独立的图编码器对 LSG 和 VSG 进行编码,并将它们融合成一个统一的翻译端的目标侧 LSG。
- 引入一个视觉场景幻象(VSH)模块,在推理阶段从 LSG 构建一个幻象的 VSG。
- 应用 SG-pivoting 学习,结合跨 SG 的视觉-语言对齐(对比学习与跨重构),以及 SG-pivoted 的回译(视觉共现和字幕式回译)。
- 使用基于回译和字幕描述的伪平行数据来提升无监督翻译质量。
- 采用分阶段的训练日程:CMA、REC、VCB、CPB 和 VSH 损失,然后进行联合微调。
实验结果
研究问题
- RQ1是否可以在测试时不使用图像,通过从文本幻化出一个合理的视觉场景来实现有效的无监督多模态翻译?
- RQ2场景图是否比基于区域的粗粒度方法为 VL 转换提供更全面、细粒度的表示?
- RQ3在推理时无图像的设定下,基于 SG 的跨模态对齐和 SG-pivoted 回译对翻译质量的贡献有多大?
主要发现
- SG-pivoting 的 UMMT 方法在无图像设置下相对于强基线在 Multi30K 上实现了显著的 BLEU 增益(平均提升约 5 BLEU 超过最佳基线)。
- 同时使用 LSG 和 VSG 能提升翻译质量;去除 SG 会显著降低性能。
- 视觉场景幻象(VSH)在没有图像输入的情况下实现了有竞争力的性能,完整模型(本工作)优于不含 SG 的变体。
- 回译和基于字幕的回译对提升贡献最大,最强的消融实验观测到约 4.3 BLEU 的提升。
- 人工评估表明 SG 基模型在完整性更高、歧义更低,并且在 CLIP 相关性测量的视觉-语言对齐方面表现更好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。