Skip to main content
QUICK REVIEW

[論文レビュー] Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination

Hao Fei, Qian Liu|arXiv (Cornell University)|May 20, 2023
Multimodal Machine Learning Applications被引用数 20
ひとこと要約

本論文は、推論時に画像を必要としない教師なし多モーダル機械翻訳(UMMT)システムを提案する。視覚と言語のシーングラフ(VSG/LSG)と視覚シーン幻視モジュールを用いてテキストから疑似VSGを生成し、テスト時に対応画像を用いずにMulti30Kで強いBLEU向上を達成する。

ABSTRACT

In this work, we investigate a more realistic unsupervised multimodal machine translation (UMMT) setup, inference-time image-free UMMT, where the model is trained with source-text image pairs, and tested with only source-text inputs. First, we represent the input images and texts with the visual and language scene graphs (SG), where such fine-grained vision-language features ensure a holistic understanding of the semantics. To enable pure-text input during inference, we devise a visual scene hallucination mechanism that dynamically generates pseudo visual SG from the given textual SG. Several SG-pivoting based learning objectives are introduced for unsupervised translation training. On the benchmark Multi30K data, our SG-based method outperforms the best-performing baseline by significant BLEU scores on the task and setup, helping yield translations with better completeness, relevance and fluency without relying on paired images. Further in-depth analyses reveal how our model advances in the task setting.

研究の動機と目的

  • 現実的な推論時画像不要のUMMTシステムの動機づけと構築。
  • 入力テキストと画像を、全体的なグラウンディングのために細粒度のシーングラフ(LSG/VSG)で表現する。
  • 推論時にテキストから疑似視覚グラフを生成する視覚シーン幻視機構を開発する。
  • SG-pivoting学習目的を導入して無監視MTモデルを訓練する。
  • Multi30Kでベースラインを大幅に上回るBLEU向上を示し、VL整合性と翻訳品質を分析する。

提案手法

  • 事前学習済みパーサを用いて、ソーステキストと対応画像を言語シーングラフ(LSG)と視覚シーングラフ(VSG)として表現する。
  • LSGとVSGを別個のグラフエンコーダで符号化し、翻訳のための統合されたtgtside LSGに融合する。
  • 推論時にLSGから幻視されたVSGを構築する視覚シーン幻視(VSH)モジュールを導入する。
  • クロスSG視覚言語整合性(対照学習とクロス再構成)を用いたSG-pivoting学習と、SG-pivotedバック翻訳(視覚同時性とキャプショニング・ピボット)を適用する。
  • バック翻訳とキャプショニングベースの疑似平行データを用いて無監視翻訳品質を向上させる。
  • 段階的スケジュールで訓練する:CMA、REC、VCB、CPB、VSH損失を用い、次に共同ファインチューニングを行う。)

実験結果

リサーチクエスチョン

  • RQ1テスト時の画像を用いずに、テキストから妥当な視覚シーンを幻視して、教師なし多モーダル MTを効果的に実行できるか?
  • RQ2シーングラフは、粗い領域ベースの方法よりも、VLピボットに対してより全体的で細粒度な表現を提供するか?
  • RQ3SG主導のクロスモーダル整合とSG-pivotedバック翻訳は、推論時の画像不要設定における翻訳品質にどれだけ寄与するか?

主な発見

モデルEn→Fr BLEUEn←Fr BLEUEn→De BLEUEn←De BLEUAvg BLEU
Ours50.645.532.033.640.4
- L_CMA49.244.330.932.639.3
- L_REC48.743.930.332.138.8
- L_VCB47.042.228.730.137.0
- L_CPB45.941.627.629.236.1
- L_CMA & L_REC47.242.529.230.937.5
- L_CPB & L_VCB44.640.026.327.734.7
  • SG-pivoting UMMT法は、画像不要設定においてMulti30Kで強力なベースラインを大幅に上回るBLEU向上を達成する(平均で最良ベースラインより約5BLEUの改善)。
  • LSGとVSGの両方を使用すると翻訳品質が向上する;SGを除去すると性能が大幅に低下する。
  • 視覚シーン幻視(VSH)は画像入力なしで競争力のある性能を実現し、完全モデル(Our)はSGを欠くバリアントよりも優れている。
  • バック翻訳とキャプショニングピボットバック翻訳が最も寄与し、最も強いアブレーションで約4.3 BLEUの向上を観測。
  • 人間評価では SGベースのモデルがより完成度が高く曖昧さが低いこと、CLIPベースの関連性でVL整合性がより良いことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。