[論文レビュー] Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination
本論文は、推論時に画像を必要としない教師なし多モーダル機械翻訳(UMMT)システムを提案する。視覚と言語のシーングラフ(VSG/LSG)と視覚シーン幻視モジュールを用いてテキストから疑似VSGを生成し、テスト時に対応画像を用いずにMulti30Kで強いBLEU向上を達成する。
In this work, we investigate a more realistic unsupervised multimodal machine translation (UMMT) setup, inference-time image-free UMMT, where the model is trained with source-text image pairs, and tested with only source-text inputs. First, we represent the input images and texts with the visual and language scene graphs (SG), where such fine-grained vision-language features ensure a holistic understanding of the semantics. To enable pure-text input during inference, we devise a visual scene hallucination mechanism that dynamically generates pseudo visual SG from the given textual SG. Several SG-pivoting based learning objectives are introduced for unsupervised translation training. On the benchmark Multi30K data, our SG-based method outperforms the best-performing baseline by significant BLEU scores on the task and setup, helping yield translations with better completeness, relevance and fluency without relying on paired images. Further in-depth analyses reveal how our model advances in the task setting.
研究の動機と目的
- 現実的な推論時画像不要のUMMTシステムの動機づけと構築。
- 入力テキストと画像を、全体的なグラウンディングのために細粒度のシーングラフ(LSG/VSG)で表現する。
- 推論時にテキストから疑似視覚グラフを生成する視覚シーン幻視機構を開発する。
- SG-pivoting学習目的を導入して無監視MTモデルを訓練する。
- Multi30Kでベースラインを大幅に上回るBLEU向上を示し、VL整合性と翻訳品質を分析する。
提案手法
- 事前学習済みパーサを用いて、ソーステキストと対応画像を言語シーングラフ(LSG)と視覚シーングラフ(VSG)として表現する。
- LSGとVSGを別個のグラフエンコーダで符号化し、翻訳のための統合されたtgtside LSGに融合する。
- 推論時にLSGから幻視されたVSGを構築する視覚シーン幻視(VSH)モジュールを導入する。
- クロスSG視覚言語整合性(対照学習とクロス再構成)を用いたSG-pivoting学習と、SG-pivotedバック翻訳(視覚同時性とキャプショニング・ピボット)を適用する。
- バック翻訳とキャプショニングベースの疑似平行データを用いて無監視翻訳品質を向上させる。
- 段階的スケジュールで訓練する:CMA、REC、VCB、CPB、VSH損失を用い、次に共同ファインチューニングを行う。)
実験結果
リサーチクエスチョン
- RQ1テスト時の画像を用いずに、テキストから妥当な視覚シーンを幻視して、教師なし多モーダル MTを効果的に実行できるか?
- RQ2シーングラフは、粗い領域ベースの方法よりも、VLピボットに対してより全体的で細粒度な表現を提供するか?
- RQ3SG主導のクロスモーダル整合とSG-pivotedバック翻訳は、推論時の画像不要設定における翻訳品質にどれだけ寄与するか?
主な発見
| モデル | En→Fr BLEU | En←Fr BLEU | En→De BLEU | En←De BLEU | Avg BLEU |
|---|---|---|---|---|---|
| Ours | 50.6 | 45.5 | 32.0 | 33.6 | 40.4 |
| - L_CMA | 49.2 | 44.3 | 30.9 | 32.6 | 39.3 |
| - L_REC | 48.7 | 43.9 | 30.3 | 32.1 | 38.8 |
| - L_VCB | 47.0 | 42.2 | 28.7 | 30.1 | 37.0 |
| - L_CPB | 45.9 | 41.6 | 27.6 | 29.2 | 36.1 |
| - L_CMA & L_REC | 47.2 | 42.5 | 29.2 | 30.9 | 37.5 |
| - L_CPB & L_VCB | 44.6 | 40.0 | 26.3 | 27.7 | 34.7 |
- SG-pivoting UMMT法は、画像不要設定においてMulti30Kで強力なベースラインを大幅に上回るBLEU向上を達成する(平均で最良ベースラインより約5BLEUの改善)。
- LSGとVSGの両方を使用すると翻訳品質が向上する;SGを除去すると性能が大幅に低下する。
- 視覚シーン幻視(VSH)は画像入力なしで競争力のある性能を実現し、完全モデル(Our)はSGを欠くバリアントよりも優れている。
- バック翻訳とキャプショニングピボットバック翻訳が最も寄与し、最も強いアブレーションで約4.3 BLEUの向上を観測。
- 人間評価では SGベースのモデルがより完成度が高く曖昧さが低いこと、CLIPベースの関連性でVL整合性がより良いことが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。