QUICK REVIEW

[論文レビュー] Emergent Translation in Multi-Agent Communication

Jason Lee, Kyunghyun Cho|arXiv (Cornell University)|Oct 12, 2017

Multimodal Machine Learning Applications参考文献 40被引用数 40

ひとこと要約

本論文では、並列コーパスが存在しない状況下で、視覚的根拠に基づく対話による相互作用を通じて言語間の翻訳を学ぶ、マルチエージェント通信フレームワークを提案する。視覚モalityを共有し、参照タスクを共同で解決することで、エージェントは自然に翻訳能力を発達させ、ベースラインを上回り、多言語コミュニティにおいてより高速かつ効果的な学習を示す。

ABSTRACT

While most machine translation systems to date are trained on large parallel corpora, humans learn language in a different way: by being grounded in an environment and interacting with other humans. In this work, we propose a communication game where two agents, native speakers of their own respective languages, jointly learn to solve a visual referential task. We find that the ability to understand and translate a foreign language emerges as a means to achieve shared goals. The emergent translation is interactive and multimodal, and crucially does not require parallel corpora, but only monolingual, independent text and corresponding images. Our proposed translation model achieves this by grounding the source and target languages into a shared visual modality, and outperforms several baselines on both word-level and sentence-level translation tasks. Furthermore, we show that agents in a multilingual community learn to translate better and faster than in a bilingual communication setting.

研究の動機と目的

並列コーパスが乏しくまたは利用できない低リソース言語翻訳の課題に対処すること。
翻訳が、エージェント間の根拠付きで相互作用的な通信から自然に出現するかどうかを調査すること。
二言語ペアと比較して、多言語コミュニティにおけるエージェントが翻訳性能を向上させるかどうかを検討すること。
事前に存在する並列テキストや専門翻訳データに依存しないゼロショット翻訳アプローチを開発すること。
視覚によるマルチモodalな根拠付けが、明示的な並列教師信号なしに効果的な跨言語アライメントを可能にするかどうかを実証すること。

提案手法

二つのエージェントを双方向の視覚的参照ゲームで訓練する：一方のエージェントが自言語で画像を説明し、もう一方が集合から正しい画像を選択する。
自然言語の出現を模倣するために、連続的ベクトルではなく離散的シンボル系列を用いて通信を行う。
画像エンコーダーと言語エンコーダーを共同で訓練することで、ソース言語とターゲット言語を共有された視覚空間に根拠づける。
リスナーのフィードバックと真値の画像アノテーションを組み込んだ共同訓練目的関数を用い、スピーカーの性能を向上させる。
三つのエージェント（英語、ドイツ語、フランス語）を含む多言語コミュニティにフレームワークを拡張し、それぞれが同時に他の二言語を学習する。
データ効率性と学習速度を調査するために、「フェア」（同等のデータ露出）と「フル」（より多くのターゲット側データ）の二つのコミュニティ訓練設定を実装する。

実験結果

リサーチクエスチョン

RQ1並列コーパスが存在しない状況下で、視覚環境に根拠づいたマルチエージェント通信の副産物として翻訳が出現するか？
RQ2共有された視覚モダリティがどのように跨言語アライメントと翻訳能力を可能にするか？
RQ3二言語ペアと比較して、多言語コミュニティで訓練すると、翻訳性能が向上し、より速く学習されるか？
RQ4訓練データの量と分布が翻訳スキルの出現にどのように影響するか？
RQ5例えばゼロリソース設定において、外国語の事前知識が全くない状況でもエージェントが翻訳を学習できるか？

主な発見

提案モデルは、語彙レベルおよび文レベルの翻訳タスクにおいて、非通信ベースラインおよび最近傍法を上回る性能を示した。
多言語コミュニティ設定では、「フル」モデルがDE-EN翻訳でBLEUスコア7.21を達成し、単一ペアモデル（5.36）およびフェアコミュニティモデル（5.56）を顕著に上回った。
「フル」コミュニティモデルは全言語ペアで最高スコアを記録し、FR-ENで8.10 BLEU、DE-FRで6.55 BLEUを達成した。これは、ターゲット側データへの露出が増えることで翻訳性能が向上することを示している。
学習曲線から、フルコミュニティモデルが単一ペアモデルおよびフェアコミュニティモデルよりも速く学習していることが明らかになった。これは、データの多様性が学習を加速させることを示唆している。
Klingonのような言語に対しても、ゼロリソース設定で翻訳を学習できた。これは、事前の言語的知識がなくても堅牢に学習できることを示している。
多言語コミュニティに所属するエージェントは、二言語設定と比較してより良くかつ速く学習しており、多様な言語的相互作用の利点が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。