QUICK REVIEW

[論文レビュー] Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination

Hao Fei, Qian Liu|arXiv (Cornell University)|May 20, 2023

Multimodal Machine Learning Applications被引用数 20

ひとこと要約

本論文は、推論時に画像を必要としない教師なし多モーダル機械翻訳（UMMT）システムを提案する。視覚と言語のシーングラフ（VSG/LSG）と視覚シーン幻視モジュールを用いてテキストから疑似VSGを生成し、テスト時に対応画像を用いずにMulti30Kで強いBLEU向上を達成する。

ABSTRACT

In this work, we investigate a more realistic unsupervised multimodal machine translation (UMMT) setup, inference-time image-free UMMT, where the model is trained with source-text image pairs, and tested with only source-text inputs. First, we represent the input images and texts with the visual and language scene graphs (SG), where such fine-grained vision-language features ensure a holistic understanding of the semantics. To enable pure-text input during inference, we devise a visual scene hallucination mechanism that dynamically generates pseudo visual SG from the given textual SG. Several SG-pivoting based learning objectives are introduced for unsupervised translation training. On the benchmark Multi30K data, our SG-based method outperforms the best-performing baseline by significant BLEU scores on the task and setup, helping yield translations with better completeness, relevance and fluency without relying on paired images. Further in-depth analyses reveal how our model advances in the task setting.

研究の動機と目的

現実的な推論時画像不要のUMMTシステムの動機づけと構築。
入力テキストと画像を、全体的なグラウンディングのために細粒度のシーングラフ（LSG/VSG）で表現する。
推論時にテキストから疑似視覚グラフを生成する視覚シーン幻視機構を開発する。
SG-pivoting学習目的を導入して無監視MTモデルを訓練する。
Multi30Kでベースラインを大幅に上回るBLEU向上を示し、VL整合性と翻訳品質を分析する。

提案手法

事前学習済みパーサを用いて、ソーステキストと対応画像を言語シーングラフ（LSG）と視覚シーングラフ（VSG）として表現する。
LSGとVSGを別個のグラフエンコーダで符号化し、翻訳のための統合されたtgtside LSGに融合する。
推論時にLSGから幻視されたVSGを構築する視覚シーン幻視（VSH）モジュールを導入する。
クロスSG視覚言語整合性（対照学習とクロス再構成）を用いたSG-pivoting学習と、SG-pivotedバック翻訳（視覚同時性とキャプショニング・ピボット）を適用する。
バック翻訳とキャプショニングベースの疑似平行データを用いて無監視翻訳品質を向上させる。
段階的スケジュールで訓練する：CMA、REC、VCB、CPB、VSH損失を用い、次に共同ファインチューニングを行う。）

実験結果

リサーチクエスチョン

RQ1テスト時の画像を用いずに、テキストから妥当な視覚シーンを幻視して、教師なし多モーダル MTを効果的に実行できるか？
RQ2シーングラフは、粗い領域ベースの方法よりも、VLピボットに対してより全体的で細粒度な表現を提供するか？
RQ3SG主導のクロスモーダル整合とSG-pivotedバック翻訳は、推論時の画像不要設定における翻訳品質にどれだけ寄与するか？

主な発見

モデル	En→Fr BLEU	En←Fr BLEU	En→De BLEU	En←De BLEU	Avg BLEU
Ours	50.6	45.5	32.0	33.6	40.4
- L_CMA	49.2	44.3	30.9	32.6	39.3
- L_REC	48.7	43.9	30.3	32.1	38.8
- L_VCB	47.0	42.2	28.7	30.1	37.0
- L_CPB	45.9	41.6	27.6	29.2	36.1
- L_CMA & L_REC	47.2	42.5	29.2	30.9	37.5
- L_CPB & L_VCB	44.6	40.0	26.3	27.7	34.7

SG-pivoting UMMT法は、画像不要設定においてMulti30Kで強力なベースラインを大幅に上回るBLEU向上を達成する（平均で最良ベースラインより約5BLEUの改善）。
LSGとVSGの両方を使用すると翻訳品質が向上する；SGを除去すると性能が大幅に低下する。
視覚シーン幻視（VSH）は画像入力なしで競争力のある性能を実現し、完全モデル（Our）はSGを欠くバリアントよりも優れている。
バック翻訳とキャプショニングピボットバック翻訳が最も寄与し、最も強いアブレーションで約4.3 BLEUの向上を観測。
人間評価では SGベースのモデルがより完成度が高く曖昧さが低いこと、CLIPベースの関連性でVL整合性がより良いことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。