Skip to main content
QUICK REVIEW

[论文解读] MOCA: A Modular Object-Centric Approach for Interactive Instruction Following

Kunal Pratap Singh, Suvaansh Bhambri|arXiv (Cornell University)|Dec 6, 2020
Multimodal Machine Learning Applications参考文献 29被引用 23
一句话总结

MOCA 提出了一种模块化、以对象为中心的架构,将视觉感知与动作策略解耦,用于视觉语言导航中的交互式指令遵循。在 ALFRED 基准测试中,MOCA 在所有指标上均达到最先进性能,并在未见过的环境中展现出出色的泛化能力。

ABSTRACT

Performing simple household tasks based on language directives is very natural to humans, yet it remains an open challenge for an AI agent. Recently, an 'interactive instruction following' task has been proposed to foster research in reasoning over long instruction sequences that requires object interactions in a simulated environment. It involves solving open problems in vision, language and navigation literature at each step. To address this multifaceted problem, we propose a modular architecture that decouples the task into visual perception and action policy, and name it as MOCA, a Modular Object-Centric Approach. We evaluate our method on the ALFRED benchmark and empirically validate that it outperforms prior arts by significant margins in all metrics with good generalization performance (high success rate in unseen environments). Our code is available at this https URL.

研究动机与目标

  • 为解决在模拟环境中遵循需要对象交互的长而复杂的语言指令的挑战。
  • 提升智能体在指令遵循过程中对未见过环境的泛化能力。
  • 通过解耦视觉感知与策略学习,提升视觉语言导航任务中的模块化与性能。
  • 推动多模态推理在视觉、语言与导航交互场景中的研究进展。

提出的方法

  • MOCA 采用模块化架构,将视觉感知与策略学习分离。
  • 其使用以对象为中心的表征,以在指令遵循过程中聚焦于相关实体。
  • 视觉感知模块利用专用主干网络识别并追踪环境中的对象。
  • 动作策略模块基于感知到的对象和语言指令进行动作规划与执行。
  • 系统通过跨模态注意力机制整合视觉与语言输入,以指导决策。
  • 整个流程通过课程学习进行端到端训练,以提升样本效率与泛化能力。

实验结果

研究问题

  • RQ1模块化、以对象为中心的架构能否提升交互式指令遵循任务的性能?
  • RQ2与先前方法相比,MOCA 在未见过环境中的泛化能力如何?
  • RQ3解耦感知与策略学习在多大程度上提升了样本效率与鲁棒性?
  • RQ4以对象为中心的表征在多大程度上改善了对长指令序列的推理能力?

主要发现

  • MOCA 在 ALFRED 基准测试的所有评估指标上均优于先前最先进方法。
  • 该模型在未见过的环境中实现了高成功率,展现出强大的泛化能力。
  • 模块化设计提升了在多样化指令序列上的样本效率与训练稳定性。
  • 以对象为中心的方法通过聚焦于相关实体,改善了对长指令流的推理能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。