[论文解读] On Evaluation of Embodied Navigation Agents
一篇共识性论文,提出用于三维环境中的具身导航的标准化任务格式、评估指标、泛化设定和标准基准,并以 SPL 作为推荐的主要指标。
Skillful mobile operation in three-dimensional environments is a primary topic of study in Artificial Intelligence. The past two years have seen a surge of creative work on navigation. This creative output has produced a plethora of sometimes incompatible task definitions and evaluation protocols. To coordinate ongoing and future research in this area, we have convened a working group to study empirical methodology in navigation research. The present document summarizes the consensus recommendations of this working group. We discuss different problem statements and the role of generalization, present evaluation measures, and provide standard scenarios that can be used for benchmarking.
研究动机与目标
- 澄清具身导航中的问题陈述和目标类型(PointGoal、ObjectGoal、AreaGoal)。
- 提出具有量化对测试环境先验暴露度的严格泛化与探索规程。
- 推荐一个单一、可解释的主要评估指标(SPL)及辅助辅助指标。
- 提倡连续空间模拟器、SI 单位计量以及开源部署到真实机器人。
- 提供来自多数据集的标准基准场景,以实现可重复的比较。
提出的方法
- 定义三种目标类型(PointGoal、ObjectGoal、AreaGoal)并讨论规格方式(坐标、类别、图像、语言)。
- 概述泛化规程(无先前探索、预记录探索、时限探索)并量化评估前的暴露。
- 引入 SPL(按路径长度的逆权重的成功)作为主要导航指标,并为任务完成指定 DONE 动作,以确保对目标达成的理解。
- 建议在模拟中使用连续状态空间和 SI 单位;强调开源工具以桥接仿真与真实机器人。
- 提供来自 SUNCG、Matterport3D、AI2-THOR 和 Gibson 的标准场景,含 train/validation/test 拆分,以实现可重复的基准测试。
- 鼓励在 SPL 之外报告辅助指标,以获得更全面的性能图景。
实验结果
研究问题
- RQ1哪些鲁棒、常见的具身导航任务定义能够支持跨研究比较?
- RQ2新环境或部分探索环境的泛化应如何量化和报告?
- RQ3在多样场景中评估导航性能的合适、可解释的主要指标是什么?
- RQ4应如何设计仿真平台以促进到真实机器人中的迁移?
- RQ5哪些标准场景可以支持跨多种室内环境的可重复基准测试?
主要发现
- SPL 被提议为主要、可解释的导航性能指标,基于 DONE 动作和到目标的测地距离的二元成功信号。
- 应使用测地距离而非欧几里得距离来评估到目标的接近程度,以考量环境结构。
- 必须产生 DONE 动作以将剧集视为成功,确保智能体对目标完成的理解。
- 基于仿真的基准应使用连续状态空间和 SI 单位,以提高现实性和互操作性;鼓励使用开源部署工具以促进向真实机器人转移。
- 在 SUNCG、Matterport3D、AI2-THOR 和 Gibson 中提供带 train/validation/test 拆分的标准化场景,以实现可重复的比较。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。