Skip to main content
QUICK REVIEW

[论文解读] Learning to predict where to look in interactive environments using deep recurrent q-learning

Sajad Mousavi, Michael Schukat|arXiv (Cornell University)|Dec 17, 2016
Visual Attention and Saliency Detection参考文献 25被引用 26
一句话总结

本文提出了一种结合软注意力机制的深度循环Q-learning框架,使智能体能够在交互式Atari 2600游戏中同时学习最优控制动作与注意力聚焦点。通过将软注意力机制整合到深度Q网络(DQN)中,该模型在预测人类注视位置方面显著优于自底向上的显著性模型(如Itti-Koch和GBVS),分别取得了0.74的平均NSS和0.70的平均ROC分数。

ABSTRACT

Bottom-Up (BU) saliency models do not perform well in complex interactive environments where humans are actively engaged in tasks (e.g., sandwich making and playing the video games). In this paper, we leverage Reinforcement Learning (RL) to highlight task-relevant locations of input frames. We propose a soft attention mechanism combined with the Deep Q-Network (DQN) model to teach an RL agent how to play a game and where to look by focusing on the most pertinent parts of its visual input. Our evaluations on several Atari 2600 games show that the soft attention based model could predict fixation locations significantly better than bottom-up models such as Itti-Kochs saliency and Graph-Based Visual Saliency (GBVS) models.

研究动机与目标

  • 为解决自底向上的显著性模型在复杂、交互式环境中因任务需求强烈影响注意力而存在的局限性。
  • 开发一种基于强化学习的方法,使智能体在学习最优游戏策略的同时,学习应关注的位置。
  • 通过将软注意力机制整合到深度Q网络架构中,提升注视点预测的准确性。
  • 利用人类标注的注视点数据,评估模型性能与现有自底向上的显著性模型的对比。

提出的方法

  • 将软注意力机制集成到深度Q网络(DQN)中,使智能体在决策过程中能够聚焦于任务相关的视觉区域。
  • 注意力机制生成可微分的、加权的输入帧表示,支持通过策略梯度进行端到端训练。
  • 在Atari 2600环境中,采用带有经验回放和目标网络的深度Q学习方法训练智能体,以稳定学习过程。
  • 通过共享的视觉编码器,联合优化动作选择(Q学习)与注意力位置预测(软注意力)。
  • 注视点预测基于空间注意力图生成,激活值最高的位置即为预测的注视点。
  • 使用受试者观看游戏视频时的鼠标点击数据作为真实标注,用于评估注视点预测性能。

实验结果

研究问题

  • RQ1强化学习智能体是否能够学习预测交互式电子游戏环境中的人类类似注视点?
  • RQ2将软注意力机制集成到DQN中,相较于传统自底向上的显著性模型,如何提升注视点预测性能?
  • RQ3在动态视觉环境中,任务背景和目标导向行为在多大程度上影响注意力选择?
  • RQ4联合学习动作策略与注意力是否优于单独学习注意力的模型?

主要发现

  • 所提出的基于软注意力的DQN模型在五个Atari 2600游戏中平均获得了0.74的归一化扫描路径显著性(NSS)分数和0.70的AUC(曲线下面积)分数,显著优于自底向上的模型。
  • 在Breakout游戏中,模型的NSS为1.326,AUC为0.787,远高于GBVS(NSS:-0.074,AUC:0.489)和Itti-Koch(NSS:-0.112,AUC:0.453)。
  • 在Pong(NSS:0.846,AUC:0.76)和Enduro(NSS:0.699,AUC:0.689)等游戏中,模型表现出色,表明其在多种游戏动态下均具有鲁棒性。
  • 自底向上的模型如GBVS和Itti-Koch表现欠佳,NSS分数低于零,AUC值接近或低于0.5,表明其性能接近随机猜测。
  • 模型的注意力图与人类注视点高度吻合,视觉对比显示蓝色(预测)与红色(人类)圆圈重叠程度明显优于基线模型。
  • 结果表明,在交互式、目标导向的环境中,通过强化学习实现的任务驱动、自顶向下的注意力学习对实现准确的注视点预测至关重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。