[论文解读] Guided Attention for Large Scale Scene Text Verification
本文提出了一种名为 Guided Attention 的端到端框架,无需边界框标注或显式文本检测与识别,即可验证给定文本字符串是否存在于场景图像中。该方法在大规模、具有挑战性的 Street View Business Matching 任务上取得了最先进性能,显著优于现有的基于场景文本识别的方法。
Many tasks are related to determining if a particular text string exists in an image. In this work, we propose a new framework that learns this task in an end-to-end way. The framework takes an image and a text string as input and then outputs the probability of the text string being present in the image. This is the first end-to-end framework that learns such relationships between text and images in scene text area. The framework does not require explicit scene text detection or recognition and thus no bounding box annotations are needed for it. It is also the first work in scene text area that tackles suh a weakly labeled problem. Based on this framework, we developed a model called Guided Attention. Our designed model achieves much better results than several state-of-the-art scene text reading based solutions for a challenging Street View Business Matching task. The task tries to find correct business names for storefront images and the dataset we collected for it is substantially larger, and more challenging than existing scene text dataset. This new real-world task provides a new perspective for studying scene text related problems. We also demonstrate the uniqueness of our task via a comparison between our problem and a typical Visual Question Answering problem.
研究动机与目标
- 开发一种端到端框架,验证场景图像中是否存在指定文本,而无需依赖场景文本检测或识别。
- 通过消除对边界框标注的需求,解决场景文本验证的弱监督标签问题。
- 构建一个大规模、具有挑战性的数据集,用于真实世界场景文本验证,特别针对 Street View Business Matching 任务。
- 展示该验证任务与标准视觉问答问题在任务设定上的独特性。
提出的方法
- 该框架以图像和文本字符串作为输入,直接输出该文本在图像中出现的概率。
- 采用引导注意力机制,聚焦于与输入文本相对应的相关图像区域,从而提升文本与视觉特征之间的对齐效果。
- 使用弱监督进行端到端训练,仅需图像-文本对,无需边界框标签。
- 该方法避免显式场景文本检测与识别,降低对昂贵标注的依赖。
- 收集了一个新型数据集以支持该任务,其店面图像比现有场景文本数据集更具挑战性和多样性。
实验结果
研究问题
- RQ1端到端模型是否能够在无需边界框标注或显式文本检测的情况下验证场景图像中的文本?
- RQ2在真实世界商业匹配任务中,所提出的框架与最先进基于场景文本识别的方法相比性能如何?
- RQ3弱监督与端到端训练对场景文本验证准确率有何影响?
- RQ4在任务设定与需求方面,该提出的验证任务与标准视觉问答任务有何不同?
主要发现
- Guided Attention 模型在具有挑战性的 Street View Business Matching 任务上优于多种最先进基于场景文本识别的解决方案。
- 所提出的框架在无需边界框标注的情况下实现了优越性能,证明了弱监督的有效性。
- 为该任务收集的数据集比现有场景文本数据集显著更大且更具挑战性。
- 该框架的性能凸显了该验证任务与视觉问答任务的独特性,因其聚焦于精确文本匹配而非开放式推理。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。