[论文解读] Understanding Infographics through Textual and Visual Tag Prediction
本文提出了一种用于信息图的视觉标签发现方法,该方法通过嵌入式文本预测文本标签,并利用这些标签作为监督信号,通过基于图像块的深度学习框架定位诊断性视觉区域——即‘视觉标签’。该方法在视觉标签预测中实现了15.2%的精确率,表明信息图中的文本能够无需显式对象训练即可实现对代表性视觉内容的精确定位。
We introduce the problem of visual hashtag discovery for infographics: extracting visual elements from an infographic that are diagnostic of its topic. Given an infographic as input, our computational approach automatically outputs textual and visual elements predicted to be representative of the infographic content. Concretely, from a curated dataset of 29K large infographic images sampled across 26 categories and 391 tags, we present an automated two step approach. First, we extract the text from an infographic and use it to predict text tags indicative of the infographic content. And second, we use these predicted text tags as a supervisory signal to localize the most diagnostic visual elements from within the infographic i.e. visual hashtags. We report performances on a categorization and multi-label tag prediction problem and compare our proposed visual hashtags to human annotations.
研究动机与目标
- 为解决缺乏计算方法理解信息图的问题,提出视觉标签发现作为一项新任务。
- 利用信息图中的嵌入式文本,消除歧义并引导视觉特征定位与主题相关的区域。
- 开发一种两阶段系统:首先从信息图文本中预测文本标签,然后利用这些标签定位诊断性视觉元素。
- 通过将模型输出与650对图像-标签的人工标注边界框进行比较,评估视觉标签的质量。
- 证明从信息图中提取的文本可显著提升在复杂、视觉丰富的媒体中的视觉识别性能。
提出的方法
- 该系统使用一个包含29,000张信息图的整理数据集,涵盖26个类别和391个标签,标签与元数据由设计师分配。
- 从每张信息图中提取文本,并通过单隐藏层神经网络处理,实现48.2%的top-1平均精确率,用于预测文本标签。
- 基于图像块的深度多实例学习模型处理图像区域,受预测的文本标签约束,以定位诊断性视觉元素。
- 通过视觉模型的激活图生成视觉区域提议,并利用SharpMask和分割流程进行优化,最终生成视觉标签。
- 该方法采用回退策略(Ours-fallback),即使SharpMask失败也能确保提议生成,以牺牲精确率为代价提升召回率。
- 该方法联合利用文本上下文与视觉特征,提升在大型、复杂信息图中的定位准确性。
实验结果
研究问题
- RQ1能否利用信息图中嵌入的文本提升诊断性视觉区域的定位性能?
- RQ2两阶段方法(先预测文本标签,再进行视觉定位)在生成代表性视觉标签方面的有效性如何?
- RQ3预测的文本标签在多大程度上可作为识别信息图中主题相关视觉元素的监督信号?
- RQ4自动化视觉标签生成的性能与人工标注的真值相比如何?
- RQ5在未进行显式目标检测训练的情况下,模型是否仍能定位丰富、多元素信息图中的有意义视觉内容?
主要发现
- 所提方法在视觉标签预测中达到15.2%的精确率,优于基线方法如SalNet(10.9%)和Objectness(9.0%)。
- 通过回退策略,方法确保了100%的图像-标签对均有提议,尽管精确率下降至10.5%,但整体准确性得以提升。
- 仅使用文本的标签预测(Word2Vec)实现48.2%的top-1平均精确率,表明在多标签预测任务中表现优异。
- 仅使用视觉的类别预测(基于深度特征)达到26.5%的top-1准确率,显著高于随机水平(15.4%)。
- 文本上下文的整合提升了视觉定位性能,表现为使用预测标签作为监督信号时精确率更高。
- SharpMask是提议生成的主要瓶颈,丢弃了34%的候选区域,限制了整体召回率,因此需要回退机制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。