Skip to main content
QUICK REVIEW

[论文解读] Dialog-based Interactive Image Retrieval

Xiaoxiao Guo, Hui Wu|arXiv (Cornell University)|May 1, 2018
Multimodal Machine Learning Applications参考文献 51被引用 82
一句话总结

本文提出一种使用自然语言反馈的交互式图像检索强化学习框架,该框架通过描述目标图像与候选图像之间相对差异的用户模拟器进行训练,并在鞋类检索中显示出优于基于属性和监督基线的性能。

ABSTRACT

Existing methods for interactive image retrieval have demonstrated the merit of integrating user feedback, improving retrieval results. However, most current systems rely on restricted forms of user feedback, such as binary relevance responses, or feedback based on a fixed set of relative attributes, which limits their impact. In this paper, we introduce a new approach to interactive image search that enables users to provide feedback via natural language, allowing for more natural and effective interaction. We formulate the task of dialog-based interactive image retrieval as a reinforcement learning problem, and reward the dialog system for improving the rank of the target image during each dialog turn. To mitigate the cumbersome and costly process of collecting human-machine conversations as the dialog system learns, we train our system with a user simulator, which is itself trained to describe the differences between target and candidate images. The efficacy of our approach is demonstrated in a footwear retrieval application. Experiments on both simulated and real-world data show that 1) our proposed learning framework achieves better accuracy than other supervised and reinforcement learning baselines and 2) user feedback based on natural language rather than pre-specified attributes leads to more effective retrieval results, and a more natural and expressive communication interface.

研究动机与目标

  • 引入一种基于对话的交互式图像检索设置,其中用户反馈以自然语言给出。
  • 开发一个端到端的对话管理器架构,结合响应编码、状态跟踪和候选生成。
  • 通过提供描述目标图像与候选图像之间差异的相对字幕的用户模拟器,使 RL 训练高效。
  • 提出相对图像字幕和一个新的数据集以支持训练和评估。
  • 证明自然语言反馈优于固定属性反馈,且排名优化的 RL 能提升检索性能。

提出的方法

  • 三组件对话管理器:Response Encoder、State Tracker (GRU)、以及基于 s_t 和最近的 top-K 图像特征选择下一个候选的 Candidate Generator。
  • Response Encoder 将来自 ImgEnc 的图像表示和来自 TxtEnc 的文本表示融合为 x_t,然后应用线性投影 W 以获得联合表示。
  • 训练使用 RL 目标最大化基于目标图像排序的期望折扣奖励,结合利用用户模拟器的基于模型的策略改进步骤。
  • 一个基于相对字幕的用户模拟器生成描述目标与候选图像之间差异的单轮反馈;该模拟器在一个新的相对字幕数据集上进行训练。
  • 监督式预训练使用三元组损失 L_sup 使目标图像表示更接近历史状态并将随机图像推开,随后进行基于模型的策略改进以优化策略。

实验结果

研究问题

  • RQ1与预定义属性反馈相比,自然语言反馈是否可以改善交互式图像检索?
  • RQ2将反馈建模和优化为带有用户模拟器的强化学习问题,是否在多轮对话中获得更好的检索排名?
  • RQ3与纯监督或纯 RL 训练相比,预训练加上基于模型的策略改进的影响是什么?
  • RQ4相对字幕数据集是否可以有效训练出用于对话式检索的现实可用的用户模拟器?
  • RQ5在真实用户研究中,与基于属性的基线相比,该方法的表现如何?

主要发现

  • 使用自然语言反馈的 RL 框架在检索准确性上高于监督三元组损失和基于属性的基线。
  • 在整个对话轮次中,自然语言反馈比预定义的相对属性能实现更有效的检索。
  • 基于模型的策略改进(使用确定性用户模拟器)优于 Self-Critical Sequence Training (SCST) 基线。
  • 在鞋类检索中,基于对话的方法在真实用户下的排名百分位约为 89.9%,而 WhittleSearch(基于属性)为 70.3%。
  • 该智能体在模拟中仅进行两轮对话就达到 98% 的平均排名百分位。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。