QUICK REVIEW

[論文レビュー] Grounded Language Learning Fast and Slow

Felix Hill, Olivier Tieleman|arXiv (Cornell University)|May 3, 2021

Multimodal Machine Learning Applications参考文献 28被引用数 32

ひとこと要約

本稿では、3次元シミュレーテッド環境で、新しい語（例：'dax'）を視覚的および言語的入力と結びつけることで、1回の露出で語の学習を達成する二重コーディング外部記憶を備えた強化学習エージェントを提案する。1回の露出後、エージェントは同じShapeNetカテゴリ内の新しい例にまで結合を一般化し、二重コーディングにより未知の物体を命名するための内発的動機を駆り立てる。

ABSTRACT

Recent work has shown that large text-based neural language models acquire a surprising propensity for one-shot learning. Here, we show that an agent situated in a simulated 3D world, and endowed with a novel dual-coding external memory, can exhibit similar one-shot word learning when trained with conventional RL algorithms. After a single introduction to a novel object via visual perception and language (This is a dax), the agent can manipulate the object as instructed (Put the dax on the bed), combining short-term, within-episode knowledge of the nonsense word with long-term lexical and motor knowledge. We find that, under certain training conditions and with a particular memory writing mechanism, the agent's one-shot word-object binding generalizes to novel exemplars within the same ShapeNet category, and is effective in settings with unfamiliar numbers of objects. We further show how dual-coding memory can be exploited as a signal for intrinsic motivation, stimulating the agent to seek names for objects that may be useful later. Together, the results demonstrate that deep neural networks can exploit meta-learning, episodic memory and an explicitly multi-modal environment to account for 'fast-mapping', a fundamental pillar of human cognitive development and a potentially transformative capacity for artificial agents.

研究の動機と目的

人工エージェントが構造的記憶とマルチモーダルセンシングを用いて、人間のファストマッピングに類似した1回の露出による語の学習を達成できるかどうかを調査すること。
二重コーディング記憶が、短期的なエピソードレベルの知識と長期的な語彙的・運動的関連づけをどのように支援するかを検討すること。
二重コーディング記憶が、ゼロショット物体命名における内発的動機の信号として機能できるかどうかを検討すること。
同じShapeNetカテゴリ内での新しい例に対する語-物体結合の一般化を評価すること。

提案手法

エージェントは、物体-言語ペアのエピソード的（短期的）および意味的（長期的）表現を別々に格納する二重コーディング外部記憶システムを用いる。
訓練には、言語ベースのナビゲーションおよび操作タスクの成功に応じて調整された報酬信号を用いた従来の深層強化学習が採用される。
記憶への書き込みメカニズムは、語-物体ペアに初めて露出した際に、即座に新しい語をエピソード記憶および意味記憶に動的に符号化する。
エージェントは3次元シミュレーション環境からの視覚的特徴と言語埋め込みを活用して、クロスモodalな関連づけを形成する。
内発的動機は、環境内にタグのない物体が存在する場合に発動し、将来的なタスクパフォーマンス向上のため、それらの物体に名前を付けるよう促す。
一般化は、同じShapeNetカテゴリからの未観測のインスタンスおよび変動する物体数の下で、語-物体結合のテストを通じて評価される。

実験結果

リサーチクエスチョン

RQ1エージェントは3次元シミュレーテッド環境で、1回の露出のみで新しい語-物体の関連づけを学習できるか？
RQ2二重コーディング記憶は、即時のタスク実行と語-物体の関連づけの長期的保持の両方を可能にするか？
RQ3エージェントは、同じShapeNetカテゴリ内の新しい例にまで1回の露出による語-物体の関連づけを一般化できるか？
RQ4物体の数がトレーニング時の状況と異なる条件下でも、エージェントの一般化能力は頑健か？
RQ5二重コーディング記憶は、未知の物体を探索し命名するための内発的動機の信号として機能できるか？

主な発見

エージェントは、新しい語と物体に1回露出した後、言語誘導型操作タスク（例：'Put the dax on the bed'）を正常に実行できる。
二重コーディング記憶により、エージェントは短期的なエピソード的知識と長期的な語彙的・運動的知識を統合し、効果的なタスク実行が可能になる。
特定のトレーニング条件および適切な記憶書き込みメカニズムのもとで、語-物体の結合は同じShapeNetカテゴリ内の新しい例に一般化される。
シーン内の物体数がトレーニング時の状況と異なる場合でも、エージェントは語-物体の結合を効果的に一般化する。
二重コーディング機構は、内発的動機の信号として実用的であり、将来的なタスクパフォーマンス向上のため、タグのない物体に名前を付けるよう促す。
結果から、深層ニューラルネットワークがメタラーニング、エピソード記憶、マルチモーダル環境との相互作用を通じてファストマッピングを支援できることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。